设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 服务器 > 安全 > 正文

运维改革探索(一):用多层级监控实现可视化运维(2)

发布时间:2021-01-07 13:30 所属栏目:53 来源:网络整理
导读:在找到引起用户失望的操作后,可以分析导致操作失望的原因,是网络份额还是服务器份额.对于用户感知较差的访问,可以通过带宽评估出用户可能的带宽大小,如下图: 2、效果举例 1)建立直观的用户感知评价体系.在用户感知

在找到引起用户失望的操作后,可以分析导致操作失望的原因,是网络份额还是服务器份额.对于用户感知较差的访问,可以通过带宽评估出用户可能的带宽大小,如下图:

2、效果举例

1)建立直观的用户感知评价体系.在用户感知评价体系中,响应速度最为关键,基于用户体验的监控为评价体系提供了有效数据,如业务办理操作复杂度、交互速度、业务办理成功率和转化率等,如下图所示,某时段内业务的体验详细情况:

2)实现用户访问性能和地市服务质量的监控:

第二级:应用端到端监控

用户体验偏重用户行为和相关业务的监控,为深入了解云化架构下的应用各个环节的运行情况,提升维护工作效率,还需要构建一套面向全业务、全渠道、端到端的业务监控系统,用于整体业务监控视图,实现领导视图和运维视图合一的架构.

我们通过引入TAP+开源数据库(Mongodb)+Spark流处理技术,对云服务器上网络流量进行实时动态采集,根据代码规范和业务规则对数据进行过滤、排重,解码,分析、计算和交易关联,最终实现基于业务整体视图级动态监控,为后端运维提供了快速、高效支撑.整体架构如下:

1、基本原理和实现过程:

1)业务配置:从业务渠道维度出发,根据业务访问关系,梳理出系统部署图和业务关系视图,包括系统内部相互之间访问关系、访问端口,组件属性,协议解码等,如下面是能力开放平台系统部署和应用访问视图:

2)数据采集和流处理:首先、系统通过自动部署探针捕获所有监控云服务器端原始数据后进行初次过滤后统一汇聚到TAP交换中心,流处理中心会根据每个业务组件探针从TAP交换中心捕获数据并转换为原始数据包.其次、解码器根据TCP会话标识(flowid)将不同组件的原始数据包关联成一个完整的会话流,并根据编码规范对关联后数据包进行协议解码生成原始交易记录;最后、处理引擎根据已配置的业务规则对原始交易记录进行业务信息(如类型、渠道等关键字)提取、分析生成业务指标记录并将结果传给负责web展现引擎后入库.

3)动态监控:负责指标展现引擎(exporter)获取到数据后,将结果实时更新到前台web相应组件,目前我们已经实现实现对NGCRM、客服,网厅、商城,短厅,一级BOSS,渠道便利店,终端管理平台,移动工作台,自助终端和能力开放平台等关键业务渠道应用级监控:

4)指标统计:告警模块(alerter)轮询数据库中记录根据业务配置基线和阀值生成趋势报告和告警信息.

2、主要特点

1)灵活、高效快速部署

应用视图级监控以网络数据为依托,能够自动发现应用组件之间连接性和访问关系(如IP地址,服务端口,应用协议等),非常适合云架构下的敏捷业务监控部署,整体步骤只需3步:

2)可视化运维,快速定位

基于动态运行视图可以实时捕捉并跟踪所有组件指标波动(如业务量、成功率、响应时长等指标)和基线告警,相比传统拉网式逐个排查方式,运维人员能够快速、准确定位故障,数据指标还可以应用于服务质量评测和变化趋势分析.

3)自动关联,端到端跟踪

通过不同应用组件间交易自动关联,可以跟踪深入到业务系统内部,详细分析业务内部各应用之间交互运行轨迹和交互关系,实现问题回溯和快速定位,可基于手机号等业务关键字做深入挖掘分析:

4)智能模拟告警,告警更准确

提供模拟器功能,可自动调整告警阈值,和历史上发生问题的情况对比,最终得到比较合理的告警阈值.

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读