复杂运维场景下,如何实现分钟级的故障根因定位(2)
没太看明白?看看推理树的构建原则和实现方式A、推理树的构建有以下四个原则:原则一:告警从高层向底层,在逻辑层次上面,越根源性的告警越先判断. 例如:
在告警关联度上面,越明确关联的告警越先判断. 例如:
原则二:从原子到衍生告警. 原则三:推理树的建立根据告警来定. 原则四:验证规则,根据经验和知识库来定. B、推理过程实现有以下三种方式:方式一:
方式二:
方式三:
简单来说,方式一就是半人工方式、方式二就是简单机器学习方式、方式三就是智能机器学习方式. 来个总结吧,4步搭建你的故障根因定位系统看完是不是有点小激动,想动手试试如何构建一套智能故障根因定位系统,需要如下几个步骤: 第一步: 构建CMDBCMDB是监控系统的基础,数据部分通常分为静态、动态两大类. 就网络设备而言,静态数据通常包括:
动态数据通常包括:
第二步: 告警标准化需要统一告警信息的格式,便于故障定位系统提取关键特征级并进行分类分组. 第三步:梳理告警关系理清告警之间的关联关系,关联关系需要是逻辑上面的,形成必要的关系,例如A是B上游模块,A出现问题必然会导致B出现问题. 第四步: 构建推理树根据人工故障定位判断逻辑,构建推理树,设定每个推理节点的判决条件. OK啦,做完以上几步,您就搭建了一个简单的故障根因自动定位系统,通过对每个推理节点判断条件的不断优化,您可以不断提升故障自动定位准确率,让您的运维效率得到大幅提升,IT运营水平逐步与BAT等超级互联网公司运营水平对齐. 如果您需要任何帮助,也加入由灵犀linkedsee和高效运维共同建立的微信群,与本文作者和更多同行进行交流. 同时您也可以免费体验目前灵犀linkedsee对外发布的产品. 致谢:本文由灵犀(IT运营专家)供稿. 说明:关于本文或灵犀,您有什么需要讨论的?欢迎加入如下微信群. 请添加微信号 jia_yanni001 为好友,由她邀请您加入,接头暗号为:IT运营交流. (编辑:ASP站长网) |