京东商城交易平台的高可用架构之路
《京东商城交易平台的高可用架构之路》要点: 作者:王晓钟 编辑:木环、郭蕾 据腾讯科技报道,6 月 18 日零点,京东全民年中购物节拉开了高潮的序幕.第一个小时的销售额超过去年同期的 250%.从凌晨开始的海量订单让 6 月 1 日就拉开序幕的京东年中购物节奏出最强音,大量用户瞬间涌入,峰值订单被不断刷新.为了应对如此大规模的流量增长,京东研发团队几乎全年都在高筑墙、广积粮,一直着力从技术层面为用户提供流畅的交易体验,以保证在峰值交易时期系统的高可用性.在京东整个电商体系中,交易系统占据着其中的半壁江山,购物车、结算、库存、价格等相关的环节都包含在其中,可以说交易系统的高可用能力基本上决定了整个京东商城的高可用能力.在过去的一年时间里,京东的交易系统做了哪些迭代和优化?今年又有哪些创新?整体的交易系统规划是怎么样的?InfoQ 记者带着这些问题采访了京东商城交易平台高级总监王晓钟. 受访嘉宾介绍 王晓钟,京东商城交易平台高级总监,京东交易黄金流程与智慧营销生态系统的掌舵人,带领的产品与研发团队为京东商城提供了核心交易的系统保证. InfoQ:能否整体介绍下交易平台目前的架构体系?王晓钟:交易平台负责商品、价格、用户、库存、订单等电商核心基础信息的中心化管理,以及对购物车、结算页、优惠券 / 礼品卡、订单中心等黄金交易流程的管控和平台化服务.交易平台致力于技术改变生活,打造智慧营销的交易平台.为用户提供黄金交易流程;为客户提供智慧营销解决方案包含促销建议、智能库存定位等智慧营销工具;为研发团队提供稳定、可靠的交易服务.
InfoQ:过去一年,交易平台在保证底层的基础平台稳固方面做了哪些事情?有哪些点读者是可以参考学习的?王晓钟:除了我们一直在做的、已经形成常规的工作,比如线上压测、性能优化、扩容、故障切换、限流、降级之外,过去一年,我们在系统维稳方面做了一些精细化的工作.
随着业务的发展,功能的复杂度也在不断增加,定位故障原因变的困难了起来,很多时候线上发生故障大部分的时间都在定位问题,故障的解决只要有预案就可以很快处理.调用链监控就很重要,可以站在全局的角度,快速的定位问题,和故障预案处理结合可以解决我们的痛点. 随着服务的不断扩容,机器数量的增加,出现问题时,故障修复的速度变慢,自动化的故障切换可以使人工解放出来,处理更重要的事情,可以让大家不用总是在半夜起来处理故障. InfoQ:目前交易平台的服务是依据什么维度进行划分的?王晓钟:目前交易平台主要依据业务能力来划分服务的:购物车、结算页、促销、价格、库存、商品、用户等,为 PC,手机,微信等渠道提供高可靠的大中台服务. 这种划分模式好处在于:
InfoQ:能否分别从业务、系统、基础设施三个层面谈谈你们的监控体系方案?王晓钟:在京东这样的大规模分布式系统面前,每时每刻服务器可能都宕机,网络随时可能都在抖动,大量接口调用量日均过亿,同时具有流量聚集效应的促销每天都会有好几波,如果没有一套强大的监控体系,我们就像睁眼瞎一样.经过多年的努力,京东目前已经形成多套监控系统,建立了比较完善的监控体系,时刻监视着系统的健康状态,并在发现问题时第一时间进行预警: 1)业务层面的监控,主要是核心业务指标,比如实时订单量,并按渠道、省份、运营商、机房、品类、活动等各个维度进行细分,从而在及时发现核心业务指标变化的同时,能够快速定位、排查问题,并做出应急响应. 2)系统层面的监控,主要是方法或代码块的调用量、成功率以及响应时间.同时,不同语言平台有特定的监控指标,例如 Java 应用,我们也非常关心 JVM GC 情况.这些指标我们会按实例、集群、机房等进行逐级汇总计算.对于响应时间,我们更关心的是 TP99 甚至 TP999 任何一指标低于预设阈值都会触发报警.在采集单一接口性能数据的基础上,我们将请求访问链经过的一系列子调用串起来,包括 RPC 服务之间、访问缓存、访问数据库等等,实现调用链条薄弱环节的快速发现,快速解决. (编辑:ASP站长网) |