58集团监控业务实践:将网站运行信息透明化(3)
A7:当前对我们最重要的一些告警指标是:页面监控和Nginx后端集群状态的指标.这些指标出现异常,那么肯定会对用户的访问产生不利影响.其他一些指标包括:各种业务数据、流量数据、接口是否正常、端口是否存活、系统资源使用情况等. Q8:我们目前也在建设监控平台,目前使用定时器轮询check,实现“实时”监控.有没有更好的方案,实现真正的实时监控.还有声音告警是什么样的概念? A8:声音告警就是有告警事件的时候使用程序拨打告警接收人的电话,通话中用语音播报异常的内容.实时的监控是使用agent周期性的采集数据上报给监控服务端,在处理数据过程中使用流式计算的模型,监控后端模块每时每刻都在处理agent传输过来的数据. Q9:如何解决告警风暴的问题? A9:首先按照上面一个问题的回答做好告警收敛问题.另外采用合理的策略对同一个集群、同种类型的异常进行告警合并.更进一步的可以做好告警根源原因分析,直接告诉用户是什么原因导致的大量告警.例如某个交换机故障导致这个网段的服务器不可达. Q10:针对项目后端接口的监控是无侵入式的吗? A10:有两种:一种是无侵入式的,通过agent调用plugin对接口进行探测;另一种是类似侵入式的,需要在编译打包的时候包含一个监控相关的库文件. Q11:怎么能尽快确认引起故障的点呢?因为故障发生时很可能有告警风暴.我这边想的是把异常日志按照时间先后汇总,有什么更好的方法吗? A11:为了方便了解网站在全局的运行状态,根据各服务之间的依赖关系自动分析故障的根源原因.为了方便排查相关服务的异常,系统可以按照时间轴组织的监控异常事件展示功能,从而方便用户快速定位故障的根源原因. Q12:2.5全局系统结构视图的建立,能否展开来说下来 A12:在程序中编译打包了监控相关的库,那么监控系统就能够知道服务之间的调用关系,例如知道了A调用了B,也知道了B调用了C.那么根据这些信息就可以完整的拼出整个网站系统的调用关系网,这就是所说的全局视图. 文章来自微信公众号:高效开发运维 (编辑:ASP站长网) |