设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 服务器 > 安全 > 正文

运维改革探索(二):构建可视化分布式运维手段

发布时间:2021-01-07 07:20 所属栏目:53 来源:网络整理
导读:《运维改革探索(二):构建可视化分布式运维手段》要点: 本文介绍了运维改革探索(二):构建可视化分布式运维手段,希望对您有用。如果有疑问,可以联系我们。 作者介绍 朱祥磊,山东移动BOSS系统架构师,负责业务支撑系统架构规划和建设.获国家级创新奖1项、通

《运维改革探索(二):构建可视化分布式运维手段》要点:
本文介绍了运维改革探索(二):构建可视化分布式运维手段,希望对您有用。如果有疑问,可以联系我们。

作者介绍

朱祥磊,山东移动BOSS系统架构师,负责业务支撑系统架构规划和建设.获国家级创新奖1项、通信行业级科技进步奖2项、移动集团级业务服务创新奖3项,申请发明专利13项.

工具篇:构建可视化分布式运维手段

工欲善其事,必先利其器.上篇我们已经详细分享了监控相关的知识,然而运维可视化,除了构造可视化监控外,还要建立相应的运维手段,云化下的运维工具和传统架构的有较大不同,对集群式、分布式提出了更高的要求.

1、自动化巡检

从2011年开始推行巡检,最初,我们的武器仅仅是一个word文档、一些excel表格和大量的SHELL脚本,检查靠人工敲击命令或者查看表数据,内容也多数都仅限于日常维护中已经存在的主机,数据库,中间件,进程状态等,执行效率较差,并且未真正涉及业务类的健康检查.

从2014年12月开始,正式引入自动化巡检工具,工具对原来积累的脚本进行整合,提供可视化操作局面,能够定期自动执行、自动生成巡检分析报告,巡检内容涵盖主机、数据库、中间件、应用在内的所有监控对象,并且随着巡检的深入,在2015年起又增加了业务级别的巡检内容,对于一些关键业务关键点也定期进行巡视分析.

1)自动化巡检内容

目前自动化巡检对象涵盖了所有的生产主机,固定巡检内容主要包括常见的系统安全隐患、入侵攻击检查,安全补丁检查,系统配置、加固检查,数据库安全配置检查,详细如下:

巡检工具把历史积累的SHELL脚本参考上面内容进行逐步归类,作为巡检工具的基础项,也可以随时对巡检内容进行修改,所有的巡检动作全部可视化,并且巡视项、巡检方式、巡检主机等全部可以进行定制,巡检任务结束后会自动生成巡检报告,并能通过邮件、短信等渠道第一时间告知关注人.

2)自动化巡检效果

从2014年底以来,通过将日常巡检报告自动化,不断来提升运维的自动化程度,通过脚本管理、故障诊断、拓扑图执行远程命令调用等功能规范日常运维操作.通过巡检可以保存系统性能数据、容量信息、配置信息为系统维护、升级、扩容提供决策数据支持;同事通过灵活的工具定制,达到了对各种等资源全面的监控、多级钻取实现性能分析,提升运维的专业化水平.

2015年中开始,在实现系统自动化巡检后,我们再接再厉,终于实现了业务巡检的工具化,目前业务相关的巡检包已涵盖了系统安全、无纸化、服开配置、业务规则等巡检内容共计10类28项业务,能够随时掌控关键业务监控度,具体的业务巡检内容和界面如下:

2、自动化JOB

在系统日常运维中,存在大量重复并且简单的运维操作,包括最常见主机、中间件、数据库等不同类型的软、硬件平台运维.这些运维操作重复而机械,却易于出错,占用了大量日常运维人员的精力和时间.

通过运维自动化工具,将运维操作场景化、可视化、自动化和标准化,将以前需要编辑大量脚本和命令进行的维护操作变为只需要点击相关的场景调用以及输入合适的参数,大幅减少运维人员在编写脚本和命令分发执行所带来的资源投入.

日常运维场景

日常运维场景是将系统管理员的日常工作项目,集成于同一界面,可对自动执行的任务进行处理,并提供统一接入入口和监控界面.

首先,系统管理员先进行任务配置,系统管理在任务配置页面,进行任务分类与任务的配置.使用日常任务之前,需要先配置在相应的任务分类下配置任务,才能使用.

此后,系统管理员在任务视图是各分类的任务的执行页面.配置任务完成后,打开任务视图,可看到不同任务分类下已配置的任务,点击执行,进入参数输入页面,选择执行的目标设备,输入参数后,点击立即执行完成运维场景所需要执行的运维操作.

自动化告警处理

传统告警处理,主要靠人工值守进行操作,告警响应速度受到多方面因素的制约,如告警信息发布及时性,运维人员响应及时性,运维人员对系统熟悉程度等;一旦运维人员错过了告警,本来有很简单有效的运维操作没有被执行,就可能导致系统故障.

自动化运维工具通过告警消息自动触发故障处理流程,主动高效地识别和解决故障,极大的提升运维对故障的响应速度和缩短故障时间.

  • 快速高效地识别、解决和消除服务中断的根源
  • 通过工具来查看、管理、诊断和解决问题
  • 整合运维团队积累的、厂商的专业工具和知识来加速事件和问题的诊断和解决
  • 自动进行故障问题定位并启用对应

一键快速诊断定位性能问题:

  • I/O性能问题
  • 并发问题
  • 低效SQL或者高负载SQL
  • 对象争用
  • 锁阻塞或HANG

运维管理人员可以通过自动化工具,根据告警触发或手工调度诊断流程,自动化工具自动进入诊断模块,首先自动判断系统所存在问题:如IO问题、并发堵塞问题、低效SQL或高负载SQL问题、hang等.自动化工具根据问题类型自动调度预定处理流程或方案(预定处理脚本集),最后返回诊断结果.

3.自动可视化发布

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读