解放运维的双手,谈自动化运维管理平台设计(3)
通过监控可以主动及时地得到系统的故障信息,在与业务部门的沟通中,化被动告知为主动监控,也为解决故障赢得宝贵的时间,这样可以把影响范围和影响时间降至最低. 灾备管理平台灾备管理,有条件的话可以两地三中心,即同城实时,异地延迟备份.注意一定不能全部都是实时备份,否则在出现问题的时候,尤其是数据篡改实时同步到备份端的话,也将是错误的数据.所以一定要有实时和延迟的策略.另外备份层面可以分数据库备份、文件备份(如应用程序包等)、虚拟机备份和存储级别的备份. 有备份就一定要有验证,而且验证要持续不间断,有计划地实施.只要通过验证可用的备份集才能保障系统的可用性. 在灾备管理模块存储各种系统的应急预案,这样在出现灾难性故障的时候,可以迅速启动应急预案,进行灾难处理. 自动化运维和安全安全安全管理必不可少,而自动化运维是为了最大程度地减少运维的重复劳动,提高运维的工作效率.自动化运维减少的工作量可以转化为更多对系统安全的关注. 安全模块主要从上图的几个方面进行: 登录服务器通过堡垒机,而非直接SSH登录,另外利用堡垒机做系统操作审计,利用业务操作日志做业务审计(一般很难).通过审计挖掘潜在的系统风险和威胁,防患于未然. UMS即用户账号管理.操作系统的用户和业务系统的用户密码往往没有一个统一集中的地方进行管理,这些管理员级别的账户一旦泄漏,危害是很大的.所以通过UMS进行对这些用户的管理,并且指定责任人、权限和密码修改策略,最大程度地避免密码泄漏和丢失的风险. 企业中一般有多种安全设备,防火墙、WAF、IPS等,通过一个统一管理入口,既列举了所有的安全设备,也方便操作.这里往往是通过URL跳转到各种安全设备的管理界面. 漏洞管理平台主要是几个爬虫去爬当前主流系统漏洞和最新的漏洞,在平台进行反馈,以便运维工程师及时获得漏洞信息和思考处理办法. 当运维的服务器数量上来的时候,自动化运维就显得非常重要了.例如漏洞管理平台发现一个新的漏洞时,需要在几百台服务器上打补丁,此时没有运维自动化,每一台都登录处理的话,将是非常大的一个工作量. 自动化运维在这里简单介绍一下运维自动化涉及到的内容.结合前面说的运维流程化中的流程,大概分为以下几点: 1、服务器申请与操作系统自动安装(自动安装的操作系统是经过系统安全加固和优化后的系统). 2、系统部署服务(如数据库,Tomcat等)的申请和自动部署.一般要求版本统一,或是特定版本.部署的服务需要从自建软件仓库或是自建的Yum源进行自动安装. 3、应用发布申请与应用的自动部署.我们这里采用的是开发从代码库中检出代码通过编译服务器进行编译,将编译后的程序包和配置文件(如果修改的话)在系统进行提交发布申请;测试人员收到开发的发布申请后,点击发布,发布程序先执行备份,然后自动发布到测试环境,测试人员进行测试,测试有误,回滚测试环境,流程退回至开发,如无误则点击生产发布(有的公司会要求预生产发布测试);运维人员收到测试通过的包和发布时间后,点击创建发布即可.到时会定时在服务器先备份后发布. 4、应用变更申请流程与上述类似,都是先经过测试,再进行变更.服务器变更申请如扩容等会根据资源利用率和硬件资源池进行评估后,给出变更建议. 此外自动运维平台还提供架构自动诊断、压力测试、系统巡检、故障自诊断等方面的功能,具体不再一一赘述. 总结运维管理平台的建立涉及到运维工作的方方面面,以减少运维重复工作,提高运维效率为目标,如果大家有新的意见和建议的话,欢迎一起沟通交流. 文章来自微信公众号:DBAplus社群 (编辑:ASP站长网) |