携程:我们是如何利用容器实现快速弹性伸缩的?(3)
图7 1)自定义?CExecutor,Go?语言实现
2)task:container -1:1 -> N:1 3)容器持久化 如图?7,可以观察得到前段抖动非常厉害(如果过渡频繁地创建删除容器,会带来非常大的负担,抖动会非常高),在用?1:1?调度之后就变得平缓了.所以携程自定义 CExecutorr(Go?语言实现),避免过于频繁创建删除容器,带来的副作用(抖动非常强、load非常高),之后就基本上处于水平线了. 七、容器监控方案1、Mesos?监控
图?8 图?9 如图?8-9?携程用了很多开源技术,Telegraf、influxdb、Grafana?并做了一些扩展来实现 mesos 集群的监控,采集 mesos-master 状态、task执行数量、executor 状态等等,以便当 mesos 集群出现问题时能第一时间知道整个集群状态,进而进行修复. 此外,我们还从 mesos 调度入手,做了一些应用层的监控,比如: 针对 cron job 类型的应用,让用户可以看到 job 应该在什么时候执行,执行的过程,整个 job 的成功率,job 还有多个实例在跑等; 2、容器监控 图?10 携程监控团队全新开发了一套监控系统?hickwall,也实现了对容器的监控支持;hickwall agent 部署在容器物理机上,通过 docker client 、cgroup等采集容器的运行情况,包括?CPU?、Memory、Disk?IO 等常规监控项; 由于容器镜像发布会非常频繁的创建、删除容器,因此我们把容器的监控也做成自动发现,由 hickwall agent 发现到新的容器,分析容器的label信息(比如: appid、版本等)来实现自动注册监控;在单个容器监控的基础上,还可以按照应用集群来聚合显示整个集群的监控信息; 除此之外,携程还做了各个业务订单量的监控,比如说今天有多少出票量、酒店间夜数,而我们可以非常精准地根据历史的信息预测未来的数据,比如说明天的这个时间点订单量应该在多少、准确性在?95%?以上,一旦比预估的偏差太大的话,就会告警有异常,它把一个综合的业务运行健康度提供给业务研发团队,而不仅仅是单个容器的运行情况. 我们在线也会做一些压测,比如说这个集群下面有 10 台机器,这 10 台机器的负载均衡权重都是 0.1,我们会把其中一台调高,看它的吞吐和响应的情况.测出它到了一定极限能提供的 QPS,就可以知道这个集群还剩多少性能高容量,这个容量就是这个集群还能承载多大的压力.
目前基于 vm 的应用已经能基于容量规划和预测实现自动扩容,后续容器的扩缩容也会接入,并且做到更实时的扩容和缩容调度; 此外,容器监控对于携程创新工场的团队是很有意义的,这些新孵化的BU对成本控制更严格,随着容器上线,我们能为其提供性价比更高的基础设施. 八、CDOS Overview图 11 CDOS?全称是?CtripData Center Operating System,?我们希望通过 CDOS 来调度多个数据中心的资源,就好比一个操作系统调度各种资源给各个进程一样,CDOS 会调度多个数据中心的计算、网络、存储的资源给到不同的应用,满足各个应用所需的冗余度,并且会动态的维持这个冗余度,一旦出现异常,可以自动尝试修复,删除出现问题的容器实例,并部署新的实例;这里面会涉及到非常多的模块. 如图 11?最上层是持续交付的发布系统,这一层是跟应用交付相关的东西,开发人员、测试人员都会用的发布系统.下面是针对不同运行模式的应用定制的两套调度管理模块,一个是 cron Job,另一个是 long running service;两者在管理、部署、发布方面都有一些差异化; 底层资源分配是用 Mesos 来实现,历史原因,我们还有大量的服务部署在 windows上,因而需要同时支持 windows server container 和 docker.长期来看未必是继续使用?Docker,因为 Docker 太激进了,目前已经有多种 container 实现方式可以选择. Windows 容器方面携程也已经做了一些 POC,实现类似前面提到的 ovs + vlan 的网络接入,遵循单容器单 ip 等原则,并且投入覆盖了部分的测试环境. 图中右边有很多服务,比如 L4/L7 负载均衡、?SOA 的服务,CMS 应用元数据管理、监控、日志收集、镜像管理和推送等模块; 由于我们采用容器镜像发布,要实现秒级交付,对于镜像推送速度有很高的要求,当 base image 没有变化时,只需要把应用新版本 build 出来的 app 层通过我们开发的 Ceph 同步模块推送的多个数据中心; 当 base image 也变更时,情况会更复杂,除了同步到各个数据中心的 Ceph 对象存储,还需要预先下发到可能用到的 Docker 服务器,才能以最快的方式启动容器. 作者:吴毅挺 文章来源微信公众号:高效运维 (编辑:ASP站长网) |