谈自动化运维平台的地基如何打牢(2)
以上几个模块单独管理,但是又密切相连.如产品线包含哪些项目,包含哪些服务,这些项目和服务部署在哪些虚拟机上,虚拟机又在哪一些物理机上,物理机分布在哪些机房和在机房中的具体位置,物理机在机房中的网络位置和网络架构如何,经过哪些安全设备等等. 反过来需要知道某一些机房有哪一些物理机,物理机位置,安全设备,以及安全设备与物理机的网络架构等,物理机上又有哪些虚拟机上部署了哪一些项目和服务等.系统和服务属于哪些供应商提供,供应商又提供了哪些系统、设备或服务器等.都要多维度进行管理.要求做到某一环节的故障,一查就知道所有受影响的系统和服务.CMDB中的信息相互交织,多维度查询和管理,构建出一张完整的总体架构图,通过总体架构图除了展现出各个部分的基础信息外,还描述了所有的依赖关系,做到坏一点而知全面. 日志通过日志可以比较准确全面地知道系统或是设备的运行情况,可以返查问题产生的原因,还原问题发生的整个过程.通过日志也可以提前预测系统可能要发生的问题或是故障,如系统安全日志,如果网络攻击会在系统安全日志中有一定的体现. 1.系统日志 系统日志主要指的是操作系统的日志,主要在/var/log下的各种日志信息.包含系统操作日志、系统安全日志、定时任务日志等.系统日志是运维管理安全模块中审计的重要依据.一般默认的操作系统日志不能满足要求,需要对系统的参数进行修改,如为history命令加上时间戳、IP,并且长久保留历史等功能.并且对日志文件进行处理,不允许用户进行清空命令,只能append. 2.应用日志 应用日志主要记录应用服务的健康运行情况以及业务操作的具体日志两部分.应用监控运行情况反应应用服务的健康状态,如果应用占用CPU或是内存过高或是忽高忽低不定,都可以通过分析应用日志结合业务操作日志得出结论.业务操作日志可以为业务审计提供主要依据.有一些系统喜欢把业务操作日志写到数据库中,这个也是需要注意的.不过不管在哪个地方,要求是不可缺少的,它为以后业务审计和问题返查提供依据. 3.数据库日志 数据库日志主要反馈数据库的运行情况.通过监控和管理数据库的日志,及时了解数据库的运行情况,遇到问题及时解决等.可以通过数据库日志结合数据库系统自带的数据库如Oracle的系统视图v$开头,MySQL的performance_schema等.虽然数据库的一些信息不是存在日志中而是在数据库里面,但是也可以作为数据库日志的一部分进行管理和监控,已便我们及时知道数据库的监控状况,从而预防可能出现的问题. 4.设备日志 设备日志一般是一个比较容易忽略的地方,但设备日志往往可以反映设备的运行情况.交换机故障,防火墙故障等设备故障都可能引起大面积的系统和服务故障.所以设备日志一定要收集,分析和监控预警.常用的设备日志有交换机日志、防火墙日志、网络安全设备日志等. 在CMDB中梳理的IT基础设施的基础上,对日志进行分类收集、管理、分析和监控,配着监控管理模块的系统,就已经可以达到多方位监控IT系统,保障IT系统的安全稳定. DB由于数据和数据库的重要性,在基础数据中,数据库作为单独的模块存在,根据环境划分为:生产数据库、测试数据库、开发数据库.严格区分三种环境的数据库,避免测试数据到生产环境,生产数据到测试环境等.另外数据库中数据也为业务监控提供数据依据.通过查询数据库中的数据,依据业务逻辑进行判断是否有错误或是遗漏的数据. 知识库知识库在整个运维管理中是一个辅助功能,主要为运维提供事件管理、问题管理.很多朋友可能会疑惑为什么把事件库和问题库放在知识库这里,这些不是应该在CMDB中吗?这里稍微解释一下,其实本人也并不太清楚这种办法是否可行.在CMDB模块中更多是偏向IT资产管理,为以后的运维操作提供运维范围和运维目标.而事件(主要指运维过程中遇到的所有的运维事件)和问题(需要进行变更发布才能解决的事件升级)更多是在IT资产之上,是解决IT资产的过程中遇到的事件和问题.如果把CMDB作为IT运维的基础管理对象和范围目标的话,事件和问题应该单独出来.也许在后面的运维管理中,逐渐强化CMDB的功能,会把事件库和问题库回归到CMDB模块中. 知识库中还包含经典案例库,主要是解决一些常遇故障、经典问题的解决方法的整理和归档. 解决方案库只要是一些常用的或是探索中的解决方案,例如:Nginx+Tomcat+Redis部署方案,FastDFS分布式文件服务器方案等. 文档库主要用来存储运维管理过程中执行的运维标准和规范以及运维的流程规范,常用的一些规范举例: 文档库也包括一些企业或是部门的规章制度,与供应商的合同条文等.主要是涉及到IT系统文档的一个存放和查阅的地方. 运维标准和运维流程的文档一定是必不可少的.因为运维自动化的前提就是运维的标准化和流程化.如果没有明确的标准和规范的流程,运维自动化就只能一直停留在测试环境的假想空间中. 总结基础数据在整个运维管理中起到基础、奠基的重要作用,也是做运维管理平台的第一步和以后每一步的重要依据.一定要舍得投入时间、人力等来建立起完整、准确、实时的基础数据.打好地基,以后运维的每一步都将有条不紊地循序渐进,终将建设成属于运维的高楼大厦. 文章来自微信公众号:DBAplus社群 (编辑:ASP站长网) |