腾讯SNG梁定安:显微镜下的运维自动化(4)
大家可以想一下,我要操作的对象都存在配置管理里面,配置好一个流程做执行,就是先安装包,再去启动相关的包,再把测试程序调用一下,把灰度接入两台在域名上,然后去验证一下没有问题,然后再接着全量上线.我们点几下按纽就解决了,不需要完全无人职守. 但是在腾讯这个体量还是不够,所以我们做了无人职守,做了无人职守还要做到这七点:你的设备怎么管理?究竟怎么样决策?应该用哪个设备? 还有我们的智能决策,依赖什么样的数据决策,应该起什么样的流程? 假设我们有一个Web层有10台机器同时挂了8台,当只挂了一台时我们可以不马上发告警,因为有一个决策系统在. 我知道Web层的机器无状态,我直接重启它把它踢下线,但是又挂、又挂,挂了5台时候决策系统就可以做一个决策,它的IP数量超过30%的不可用的时候,不能够再不发通知了,这个时候就应该发通知给运维人员,让人来干预这个事情,这是我们的智能决策. 还有我们的自动测试、灰度放量. 灰度放量基于怎样的策略来灰度放量是灰度管理系统考虑的.还有变更体检,有没有基础指标,CPU,你新上线的设备是不是跟现在设备CPU曲线吻合,或者说有没有一些业务监控能够告诉我,这就是变更体检要做的一些事情. 还有日志通知,自动化系统跟监控系统联动的时候,就像做一个变更,那边有业务告警,这两个数据一关联起来,可能业务告警就不发了,那个取决于监控系统那边告警策略建设. 3、实战案例做完了这七点,可以实现什么状态?上面是腾讯QQ会员的一个真实案例,大家如果有用腾讯的产品肯定都收过腾讯给你推的红点. 有些人处女座一定要点那个红点,马上请求量就来了.这一点对于运维来说就是一个恶梦,如果没有提前准备容量,业务请求量就会飙高. 但是在无人守职的运维能力下,你也什么都不用做.你会收到一条短信提醒,无论是聊天工具的弹框,还是手机短信提醒你,现在正在有一个自动扩容在执行,它自己就跑完了整个流程. 因为我们把最核心的那三个部分,还有辅助它能实现最后一步七步做完,在自动化这一块是可以说走在到了人生的巅峰. 最后想跟大家一起小结一下:今天分享的主题没有把它铺得特别大,大家回去可以看一下,我们有什么样管理对象可以做成标准化,要怎么样把它框起来,框起来之后针对这种标准的场景怎么样做到最高效的运维. 我们的标准化、配置化,再把流程系统,把我们对标准对象要做的一切连接起来,最终就可以实现我们的运维自动化.好了,今天的分享讲完了,谢谢大家. (编辑:ASP站长网) |