Netflix的容器技术迎来两个重大里程碑(2)
继续使用现有系统的代价是:我们需要对这些系统进行扩充,以便能与虚拟机和容器技术配合使用.除了上文列举的例子,我们还需要对遥测、性能自动调优、健康度检查系统、混沌自动化(Chaos automation)、流量控制、区域性故障转移支持、密文管理,以及交互式系统访问等机制进行扩充.另一个代价是:由于需要与Netflix的这些系统进行深入绑定,这使得我们很难利用其他开源容器解决方案提供容器运行时平台之外的其他功能. 以我们的规模(以及工作负载密度)来说,容器平台的运行还需要密切关注可靠性,并且我们还会在系统的所有层面上遭遇不小的挑战.我们已经顺利解决了Titus软件,以及所依赖的其他开源软件(Docker Engine、Docker Distribution、Apache Mesos、Snap和Linux)相关的伸缩性和可靠性问题.我们针对整个系统的所有层面设计了失败处理机制,包括通过协调促进资源管理层和容器运行时之间分布式状态的一致性.通过清晰衡量的服务级别目标(容器发布启动延迟、由于Titus中问题导致容器崩溃的百分率,以及系统API整体可用性),我们可以更好地对可靠性和功能进行权衡. 容器技术帮助工程师提高效率的一个关键原因在于开发工具.开发者生产力工具团队构建了一个名为Newt(Netflix Workflow Toolkit)的本地开发工具.通过本地迭代并借助Titus进行部署,Newt可简化容器开发工作.通过在Newt和Titus之间实现一致的容器环境,也可以帮助开发者更自信地编写代码. 目前Titus的使用情况为了驱动Netflix的服务,我们通过三个Amazon区域,用多个测试和生产账户运行了多个Titus栈. 2015年12月发布Titus后,当时我们每周需要启动数千个容器,用来处理少量工作负载.上周,我们启动了上百万个容器,这些容器中运行了数百个工作负载.一年多时间里,容器的用量增加了1000倍,而增长势头依然没有任何放缓的迹象. 为了向批处理用户提供支持,我们在峰值时段运行了500个r3.8xl实例,这意味着16,000个处理器内核,以及120TB内存的规模.我们还通过p2.8xl实例获得了所需的GPU资源,借此支撑基于神经网络和微批(Mini-batch)的深度学习功能. 2017年上半年,流处理即服务团队决定通过Titus为自己基于Flink的系统提供更简单快速的集群管理能力.这一决定导致新增了超过10,000个长期运行的服务作业容器,并且随着流处理作业的变化,这些容器都需要重新部署.各种服务共使用了数千个m4.4xl实例. 虽然上述用例对我们的业务很重要,但这些用例都不会对Netflix的客户产生直接影响.不过这种情况最近有了些变化,最近我们开始通过Titus容器运行某些直接面向Netflix客户的服务. 用于支撑直接面向客户的服务,这个决定必须慎重.过去六个月来,我们一直在对虚拟机和容器之间的实时通信进行复制,并使用复制的流量了解如何更好地运维容器,以验证该平台是否已经面向生产环境做好了准备.通过大量的前期工作,我们已经可以自信地在基础架构中推行如此重大的变动. Titus团队Netflix得以成功运用Titus的原因之一在于,Titus开发团队所积累的宝贵经验和不断的成长.我们的容器用户坚信不疑地认为,Titus团队可以通过Titus的运维和创新满足自己的需求. 这个团队的后续成长还有很长的路要走,我们也希望能将这个容器运行时和开发者体验扩展到更多领域. Andrew Spyker、Andrew Leung和Tim Bozarth代表整个Titus开发团队撰文并发布. 阅读英文原文:The Evolution of Container Usage at Netflix 文章来自微信公众号:细说云计算 (编辑:ASP站长网) |