中国人寿数据中心运维经理桂林——自动化运维自主研发之路(3)
根据我们现有的情况,实际上我们有一部分是开源的东西,这个是我们研发平台,我们用这个 openstack 来做.还好就是 vmware 的 vsphere API 是全开放的,他每一个版本的SDK都是可以下载的,可以给你做指导,我们基于这个做定制化的工作,我们应用监控是做了大量的日志挖掘. 然后基础平台监控我们是基于开源做完全的重新企划,我们这个是已经达到每天一个亿的监控信息采集规模.大概是有十个 zabbix proxy,就可以扛住了. 我们的主界面我们用了比较有意思的框架就是 primefaces,快速的一个 WEB 组件开发的一个框架我们移动端是用的 JQuery.我们在流程方面我们还是用了一个开源的平台就是 Activiti,自动化我们主要是用 zabbix 的API来实现命令统一推送和配置采集. 实际上自动化我们用了两块,一个是通过 rundeck 做批作业,还有一些基于ssh的一个推送,我们还用一个 zabbix 带有一个告警自动修复功能有一个API,我们利用这个做了一个脚本推送功能. 我们是自主研发整合不同开源和不开源工具,融合现有的生态环境,尽量节省开发人力,现在大概是20万行代码,这个写了一年多写出来,这个量也不小,有数十个功能模块. 现在我们基本上目前我们是 zabbix,已经是全面覆盖掉商业监控软件的所有的监控点.Activiti 这边我们的紧急变更,还有资源的上线都来走 Activiti,而不是用原来的商业流程软件了,我们走逐步的替换的这种方式. 组件我们就是使用了 Primefaces,我们后面的框架主要是基于 JSF 和 spring.我们开发的速度是很快的,功能上线基本上一个新功能一周就可以上去.这是一个简单的架构,我们现在这一个平台是基于 JQuery Mobile 的界面,就是我们这个界面就是自适应的,不管是什么终端访问都可以自动的适应你的屏幕. 我们前端是 Nginx 做附载均衡,后面是有 Redis 是高速缓存的.几个组的 Tomcat 是做我们的任务的调度脚本的分发以及虚机的管控,云平台的管控,这后面是我们的 vsphere API 和 openstack API.下面有 zabbix proxy 这里画少了,我们现在 proxy 已经有十多个. 这是我们的自己编写的云平台的界面,我们内部使用资源币控制资源消费,你用一个月还是用半年价钱是不一样的,然后因为通过这个环境管理起来,我们研发环境他们在也不敢浪费了. 都是内部的客户,其实这个价格也不好我们算,但是我们有这么一个机制以后,研发在使用资源的时候就不会扔在那过了一年两年还在跑没人管. 这个是我们做运维分发的工具库,而且我们每一个推送的脚本都是做了详细的日志,而且我们通过这些脚本的贡献者,可以去考核我们每一个系统管理员在我们知识库里面的贡献度.现在我们实现的功能,不只是这些,最高效的是去年我们有一个X86机房都是比较热,需要关机,这个我们作用发挥了非常大的作用,我们一个按钮下去200多台机器就搞定了.现在看到的这个是我们移动版的功能,这是我们的主机变更的流程,你只需要把你的流程图在 Activiti 里面画出来,很少的编程就可以把这个流程跑起来,非常轻量级的这么一个机制.现在我们的紧急变更基本上都是通过手机申请的.这个是我们项目在2015去年获得了保险行业协会一个奖——“2015年保险行业信息化杰出项目奖”. 3、未来方向:自主开发一体化DCOS下面讲一下未来的考虑,我们做了一些小东西,未来通过这个框架不断的拓展去自主研发继续深化,做出一个自主开发的一体化的 DCOS. 我们可以通过执行我们的运维命令,比如说我们在移动端就可以做虚机的一个资源情况的查询,以及虚机的一些服务器的重启,扩展我们数据库的空间,包括我们建立或扩展文件系统,这些标准化的操作都可以做的. 另外我们可以做到智能修复.如果说一些管的不是很规范的地方,觉得这个很简单,发现了以后修复就可以了,但是不行你必须要留下变更的轨迹,所以我们要通过 zabbix 自动发现了以后,就是把这个自动修复了,然后通过 Activiti 留下一个紧急变更的轨迹,在我们的流程管理里面,以后是有据可查的. (编辑:ASP站长网) |