中国人寿数据中心运维经理桂林——自动化运维自主研发之路
《中国人寿数据中心运维经理桂林——自动化运维自主研发之路》要点: 作者简介
前言本文主要讲的是中国人寿自主研发自动化运维平台成功要素.写了中国人寿自动化运维平台从无到有这样的过程,并这有一些关键的要点,给大家做一些介绍. 上图中的照片来自网络,我曾经是个快乐的码农,以前是做一些保险业务平台开发,比如车站码头乘客意外险出单系统等,后来开始做运维,真是一入运维深四海,没有做开发那么痛快,因为有很多苦逼的经历. 1、运维之疼疼点一:系统繁多以前我们分公司的机房可能没有那么规范,我们做光纤布线的时候没有跳线架,拿一根PP管把光纤插进去,揭开机房地板直接从地板下面把PP水管捅过去,用这种方式来搭光纤连接服务器和存储,很粗放. 集中到数据中心运维之后,主要的产品线比较多,特别是像我们这种情况,因为我们现在集中主要还是物理集中其没有逻辑,就是一个系统就是只有36个分公司,一样的数据库可能就是36个,所以我们产品线比较多,这个就导致我们应用的实例和数据库的实例也比较多,我们批作业量也是比较大. 这个前期我们在没有上线自动化平台之前,我们是发动了全国分公司的信息部的人力一起干,为此我们还要拨出一部分费用,每一年给他们一点奖励. 疼点二:设备繁杂我们的设备是比较繁杂的,大家看这张图片,很多分公司的机房就是这样子的,当然总部数据中心要规范多了. 疼点三:标准杂乱到目前为止实际上我们已经在逐步的去改善这个情况,但是现在我们还是有一部分的大部分核心数据是在小机上面跑.标准比较杂乱,我们刚刚做的时候,标准是比较混乱的,操作系统也是有32位的有64位的,redhat 有5.4的,有5.8的,我们数据库版本有也有很多种. 疼点四:操作无序这个是一个最大的问题,就是我们的操作,手工操作这个是比如说我们做数据库转换的时候,或者是很大的一些数据迁移的时候,我们可能会大量抽调全国做临时的补充.人手不够是因为你没有相应的自动化平台,平时我们操作的时候也是按照一个操作手册来做的,而且变更也没有做一个有序的管理. 这个也是一个很严重的问题,基本上节是出了事情我们开始做变更.没有一个完善的规划,这个也是一个比较严重的问题.一个事件导致一个变更,因为是没有计划和组织,没有经过严格的一个计划安排,所以说往往有可能导致新的事件,被动地变成一系列的变更. 那么怎么办?这个会导致,我们需要有一个蜕变.从传统的企业来讲,我们其实蜕变的这个程度还是比较痛苦的. 2、化茧成蝶蜕变一:标准化我们的第一个目标就是将大量的开始做X86和U2L转换,把我们本来是在小机上跑的应用程序转移到X86平台上去,进一步转移到虚拟机的 Linux. 这个应用改造是第一步,我们通过这个改造我们节约了大量的小机.现在我们除了核心的数据库在这小机上面,我们基本上所有的应用服务器都是基于 Virtual Linux,当然虚拟机也有一部分是 win 的.而且现在除了 vmware 之外我们还有建立了我们一个 OpenStack 集群. 我们做 OpenStack 给我们的研发团队使用,同时我们还在做我们的一个基于 Docker 的一个 PaaS 平台的研发.我们通过这些方式为后期的标准化打下基础.
我们开始做一个标准化,首先是统一一个设备的采购标准,我们统一了一个操作系统、数据库、中间件版本以及我们很多的开源的平台我们也是做标准的统一化,就是有统一的规范,以便我们运维有一个统一的管理.
这一块我们新从新开始做出梳理,先是从有设备来的时候配置资源上线和下线的流程,到把我们这个设备的管理规范起来,然后我们再设立我们计划变更的流程. 现在我们基本上规定在周三有一个小变更,周五一个大变更,其他时间是不允许做变更的.这样我们如果说有变更的话,我们都要提前一周做一个变更计划,通过评审才可以在下周做一个大变更. 我们对于一些影响比较小的,范围比较小的小系统,或者是特别紧急的系统,我们可以做紧急的变更,我们紧急变更我们也有一个审批流程,这样就把我们整个的变更的管理让他有序,让他形成一个安全可控的一个状态. (编辑:ASP站长网) |