监控体系建设(完整)(2)
4)应用服务层
应用服务层监控可扩展的面与深入的度都有很大空间,具体介绍参见公众号另一篇梳理《应用可用性监控建设阶段小结》,以下是一部份应用监控点: 5)客户体验层 比如测速系统以及模拟用户访问的方式: 二、监控整合监控的分层的方式促进了每一个专业层的监控覆盖面与深度,防止建设失控,但也带来一个管理上的副作用,所以需要在事件、可视化、子系统、数据的整合,以减少管理成本. 在监控整合上,主要从事件汇总、统一可视化、监控数据汇总3方面进行梳理. 1、事件汇总google sre解密一书中提过(大体意思如下):监控应该尽可能简单的把需要人介入或关注的信息展示给运维团队,能通过自动化自愈解决、分析定位过程则不在一级视图提供.当前,能实现自愈的企业还比较少,或还在摸索建设过程中,所以我先讲讲如何让每天产生上亿条流水,触发上万次告警条件(同一告警如未解除会持续不断触发告警条件),来自各种不同工具、不同格式的的告警事件以尽可能简单的方式展示给一线监控团队. 第一章监控分层中提到,原有的监控工具以保留为主思路,这些工具在运营过程中每天都会产生大量事件,为了实现监控集中展示,集中管理,需要建设一个事件汇总的模块实现事件统一汇总,并对不同层面、不同专业角度的事件进行收敛,关联分析,更全面的感知系统运行状况. 可能上面讲得还不够清楚,举几个例子:
从上面4个例子可以看到,事件汇总模块需要有几个基本要求:
2、统一可视化不同监控工具有着不同界面,不同的操作方法,对工具的掌握程度依赖于运维人员的经验,监控管理很难形成标准化,不利于监控的集中管理、释放人力成本.所以,监控事件汇总后,需要有一个统一的可视化,支持统一展示、多类型展示形式、多维用户视角、支持按需订阅的特点.具体包括: 支持事件的统一展示:支持不同角色用户管理不同的事件,包括事件的受理、分派、督办、升级、解除、转工单等闭环操作,无需在不同工具上多次操作. 多类型的展现形式:PC电脑的web端,移动手持端,大屏展示,为了支持可视化的快速开发,以及低成本的过渡到移动手持端,建议采用H5的技术选型. 多维用户:根据不同机构、不同用户的关注点,比如一线运维主要关注实时告警,二线运维主要关注事件丰富与故障树等辅助定位,值班经理主要关注当天监控事件处理情况,团队管理者主要关注团队内监控事件与重要业务系统运行状况,主管经理主要关注整合的运行情况与人员处理情况,开发人员需要有协助处理的视角数据等. 支持用户订阅展示,针对不同的业务运营场景、不同的用户进行布局、推送数据、监控指标的订阅式展示,比如,双十一或秒杀的运营活动,需要关注几十个OS的资源情况,各个OS上的交易、性能情况,如果每一个指标一个窗口,需要看几十个窗口;如果只看告警信息,又无法观察到趋势;所以,需要支持多指标合并在一个视图页面的订阅功能. 3、数据整合标准关于数据整合,这里不再复述不同监控工具事件数据的整合,主要从报文、日志、数据库流水几个角度分析: 1)报文解释: 报文解释标准,以天旦BPC为例做个介绍. (编辑:ASP站长网) |