独领风骚的B站,其监控有何过人之处?(2)
七、突破壁垒:Misaka做完如上监控,发现仍然有用户反馈问题时我们束手无策.因为我们没有收到任何与此用户相关的错误信息…… 可能网路过程出现了未知原因,比如“被加速”、“功能问题”、“异常退出”等等. 于是我们的舆情监测系统?Misaka?上线,和CDN错误日志思路相同;不同的是客户端是真客户端,突破了服务端的壁垒. 由于?Misaka?上线的受众群体更广,我们简单包装了一下界面(虽然我觉得?ELK?更漂亮)、添加了历史数据的比较.更利于分析,下图示例: 八、报警整合随着人员的加入和系统的逐步完善,定制化的监控和系统也越来越多.比如,支持多种集群模式的?Redis?集群监控: 还有队列的监控,以及把?Kafka?队列包装成支持?Redis?协议的?Databus?中间件的监控.下图示例: 随即?Docker?的监控也来了,下图示例: 那么问题又来了,这么多监控,眼不花吗?会不会查问题的时候得开N个窗口,拼经验看谁定位问题更快…… 痛定思痛,我们走访了几家互联网公司.然后默默的做了一次整合,将报警和事件以时间轴的方式展现了出来. 用过都说好,下图示例: 九、在路上:Prometheus经历约一年时间的洗礼,我们又回到了监控系统的选型. 为什么?因为越来越多的花样监控需求,已经无法很快得到满足、而且维护工作日渐繁琐.嗯,可能不同阶段需要不同的解决方案. 那为什么是?Prometheus?因为可选的开源产品并不多,新潮前卫的现代化监控就?OpenFlaon?和?Prometheus?啦. Prometheus?不止是监控工具,它是一套完整的监控解决方案.除了前端,其它都好. 很快?Prometheus?就上线了,逐步取代了?Zabbix.前端仍然是熟悉的Grafana: 不得不说?Prometheus?真的很强大,过去都用?Ganglia?监控?Hadoop?监控.如今?Prometheus?轻松搞定,颜值还不差: MySQL?的监控数据也非常详尽,以下截图看懂的是专业?DBA: 我们在路上,期待与你共享. 文章来自微信公众号:高效运维 (编辑:ASP站长网) |