腾讯亿万量级告警是如何做到全、准、快的?(4)
以前我们做监控的时候,经常说这个监控点是这个业务逻辑影响的,配上他的开发总监,对口的运维也对上,导致一个告警产生首先辐射了一大堆人,很多人收到这个告警不知道要做什么,他可能就看手机震动得快不快. 为了优化这样的问题,我们专门对所有的监控点按照不同的角色要关注的内容不同做了一个分类,就像用户端舆情的监控,舆情的监控拿手机应用举例,更多的是产品体验的一些问题,说不定用户喷的是按钮摆在右面不习惯,我要摆在左面,或者说他喷的功能性的问题. 我们希望把系统的告警是分级的,根据不同的告警优先级走不同的告警渠道,有QQ、短信、微信、电话,不同的人不同的告警,不同优先级的告警渠道来分发. 运维是主要构建一个监控的能力,并不是运维会收所有的告警,运维只收最关键的告警. 这里还有一个DLP(生死点),是下面三层所有监控点,这么多监控点如果放在一个模块里,这个模块所有的点可能都告,但是我们希望这个模块只告一个,这就是它的DLP. 你的一个agent告警不是决定服务生死的关键,那就是agent的负责人去跟进,选定一个能够决定这个模块生死的监控点作为模块的唯一运维负责的监控点,质量由运维来负责. 其他的如网络问题,负责基础网络的运维去看. 应用运维,负责业务的质量,应该投入100%的精力处理好DLP监控点的所有异常.通过DLP监控点再去与智能监控分析做整合,再对链路中各个模块的DLP进行一次收敛,每条链路只看一个点,每条链路根据相关性进行收敛之后,得出一条链路. 通过这个,我们把监控点做一个减法,很好地把告警收敛掉. 天网:质量体系我们的监控体系是闭环的:监控能力、业务可用性、用户体验、技术解决、统计分析、持续改进. 我们希望构建这样一个质量体系,把开发、运维、客服、QA、老板、产品都卷进来,运维在这里搭这样一个舞台,让大家共同参与演出,贡献力量.
监控其实就是一座很高的雪山,这里的坑很深,很难挖.我们正在探索不同的方法去攀登征服这座雪山,今天分享的这个系统未必能够解决所有的问题. 但在我们实战一年多的时间里,确实能够真正帮助运维解决一些问题,我们的告警没有以前那么多了,重新梳理了我们整个体系的生态,让更多的人进入我们的生态贡献自己的一份力量. 我今天的分享结束了,谢谢大家! Q&AQ1:主动、被动、旁路,这三种在整个告警量的范围内,比例分别是怎样的?这三路产生的效果分别怎样?
Q2:请教一下,报警之后就可以做自愈吗?
Q3:有没有一个类似的指标来说?我刚才听说92%,已知告警92%以后,自愈的报警比例是多少?
Q4:怎么保证告警收敛不会收掉有用的告警?你们制订的规则中怎么让它制订得全?
文章出处:高效运维 (编辑:ASP站长网) |