考拉上“云”的431天:经历了怎样的“脱胎换骨”?(3)
“当时非常紧张,迁移的操作列表,每一个都非常长,每一个操作步骤后的验证步骤也非常长,需要很多同学配合做出精细化操作。一旦切到阿里云时出现差池,会对用户体验产生直接影响,我们的目标就是零故障,因此必须非常谨慎。”考拉测试质量团队负责人林兮说。 办公室里,伏见盯着大屏上的进度条一点点向前挪动,就像瞭望着一艘夜航巨轮,正在航道灯的引导下驶过暗礁险滩。 “其实演练过很多次,基本上不会出现问题。”伏见相信。3月1日凌晨3点40多分,进度条顺利走完,数据迁移大功告成。 考拉团队从阿里滨江园区搬到西溪园区前的留念 全站切换至阿里云后,考拉立刻进入验证阶段,一有问题,工程师们迅速跟进解决,1日当天,成功闭环98%以上的问题。 “那天,这个数据在群里同步时,大家都很嗨,这可以算是一次‘零故障’迁移了。”林兮说。 数据搬完家后,考拉立刻开始备战3.8女神节大促,迎接考拉迁移上云后的首个流量洪峰。 考拉团队总结会后的留影 经过连续几天的压测和紧急扩容,3.8女神节当天,考拉的流量峰值,较2019年双12增长了72%,而运行在云上的考拉如磐石般稳稳地扛住了流量峰值,而且成本比之前大幅度降低。 考拉各业务线也在当天被证明已100%打通,形成闭环。 直到大促结束,吴明团队没有接到伏见的紧急电话,没有消息,就是最好的消息。 每年节省2000万元成本 3月31日,考拉如期从网易机房下线,铺设在网易和阿里之间的5公里光纤专线,在完成历史使命后也顺利拆除。 至此,考拉全面上云、快速入园的任务,获得了里程碑式的成功。 圆满完成第一阶段目标后,考拉开始了全面的云原生之路。 过去,每到大促前夕,考拉都要提前几个月打申请,临时购买服务器扩容。 如今,借助阿里云的弹性计算,考拉可实现单日内的弹性收缩。 还有同城双活数据中心,考拉过去一直想做。 在同个城市部署两个数据中心的好处在于,可以在一个数据中心发生故障或灾难的情况下,实现用户的“故障无感知”。 考拉曾在2019年做过一套方案,发现建设这个能力需要8个月,成本高达上千万元。 阿里早已尝试过“同城双活”、“异地双活”、甚至“异地多活”,在阿里云原生产品天然多AZ容灾能力下,考拉在一个月内就完成了“同城双活”的能力建设,具备了多AZ容灾能力。 “工作被‘抢’走了,我还挺高兴的。”这是考拉运维工程师李斌的肺腑之言。 3.8女神节后,考拉用户量大增,却苦了运维的同学。 一直以来,考拉使用自建的ZooKeeper(分布式协调服务),一旦负载增大,某台服务器宕机后,就会自动选举新的服务器,这个过程中无法对外提供服务。 宕机伴随的警报声,可能发生在任何时间节点,李彬不止一次在凌晨恢复数据,而且钉钉群里还有一线业务员“刷屏”式的催促。 伏见(左) 伏见发现阿里云有一套MSE(微服务引擎),相当一个全托管平台,找阿里云问了两句,对方工程师就拍着胸脯说,“没问题的,以后的运维工作我们都包了。” 阿里云的资源弹性能力和自动化运维技术,预计为考拉每年节省成本近2000万元,同时计算性能提升20%。考拉也不再设立专门的运维团队。 “开箱即用”的云上产品,更像是一种共享经济,而且阿里云这些云产品经过历年双11的打磨,解决过业界最难的问题场景和复杂度。 和阿里云一起吃第一个螃蟹 2019年9月到2020年3月31日,归功于阿里云的成熟产品,“考拉迁云”顺利完成,考拉基础产品负责人玄圈对这一过程的评价是“稳定”,但到了“考拉换树”全面拥抱云原生时,阿里云一些“半定制”产品,却带来了一些新的挑战。 吴明(左)和玄圈(右前) 在阿里云的PaaS层系统中,有一个名为ARMS(业务实时监控服务)的中间件,可以通过实时监控系统运行指标,评估系统健康状态。 AMRS最大的优点是改造成本低,一行代码就能接入,原本的多数业务也不需要修改。但是ARMS也是个“考拉定制版”的产品,支持全链路压测,上万级节点体量的考拉,是第一个吃螃蟹的“自己人”。 第一次为伏见做ARMS介绍的人,是阿里云架构师涯海,两人一见如故。 (编辑:ASP站长网) |