承载IT运维成功之梦:精准运维(2)
实现资源优化配置、提升资源利用率 让运维更加向运营靠拢,成为运营的一部分 精准运维该怎么做? 1. 精准运维的初始化—建立风控模型 了解运维系统的业务特点,根据业务和系统运行情况与业务所有者一起着手建立风控模型.风控模型需要体现业务所有者(操作人员、维护人员、管理人员等)以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险,这些数据来源于信息系统运行数据、历史运维数据、用户访谈信息及客户体验信息等.通过综合各方面信息,结合业务,从而建立风控模型,梳理出风险清单.建立风控模型的过程也就是进行信息系统与业务的匹配度分析过程,匹配度高的项必然风险小,匹配度低的项势必风险高. 要素:风控模型的初步建立完成标志是与业务所有者达成共识. 2. 精准运维日常运行之信息采集与反馈 首先,以风控模型为基准,及时了解业务所有者的具体要求并将系统的情况与所有者交流,得到有价值的服务信息;其次,可以利用自动化监控技术采集到用户端的用户体验数据,如访问网站人数、登录系统效率、页面响应速度、访问流量等;也可以利用大数据及最新的ELK技术的方式采集系统日常运行的业务数据、资源使用情况数据、业务运行效率日志数据等.此外,还可以不断与业务部门进行沟通协调,采集用户的反馈与需求. 要素:双方都了解对方的意图,并形成共识. 3. 精准运维日常运行之预测及计划编制 根据采集信息进行预测与计划的编制,所谓预测,就是对尚未发生或目前还不确切的失误进行预先的估计和推断,是现时对事物将要发生的结果进行探讨和研究.科学预测是建立在客观事物发展规律基础之上的科学推断.系统预测的实质就是充分分析、理解系统状况发展变化的规律.用相关性、数据趋势分析法及大数据分析技术对采集的数据进行挖掘分析,分析出业务需求与资源之间的相关性、与运维人员之间的相关性,分析出应用系统使用的历史与未来趋势,根据趋势与现有资源的匹配性来实时优化系统资源和人力资源,并编制详细的系统优化实施方案对系统进行优化.计划即是根据预测和业务所有者要求编制的行动方案. 要素:计划要得到所有者的认可,如需要可优化风控模型. 4. 精准运维日常运行之系统优化执行与实施 根据编制的优化实施方案精心组织实施,且与业务方充分沟通,在不影响业务的基础上完成系统优化、应急演练、风险措施改进的实施服务工作. 要素:注意行为规范. 5. 精准运维日常运行之校验与评估 根据实施结果与业务运行情况及对系统运行情况的采集,不断的校验实施效果,再进一步评估改进,通过PDCA循环往复直至达到系统与业务的精确匹配与心跳同步. 要素:结果要进入下一个环节,即反馈给所有者,如有必要可修改风控模型. 精准运维实例 这里我们拿一个经典案例来说.大家最为熟悉的微信红包,在除夕前后会产生业务高峰,大量用户在同一时间摇红包,瞬间产生每秒千万级的请求,这个量级的请求如果不加以疏导处理直接到达后台,必定会导致后端服务过载甚至崩溃.因2014年春节以后,微信红包业务量呈现快速增长,微信后台运维团队预测2015年春节的业务量将爆发式增长,对系统产生巨大压力. 为应对2015年的春节业务高峰,微信后台运维团队开展了一系列准备工作,首先是针对业务建立风控模型,以风控模型为基础展开下面的工作: 事实上,按照上述步骤,微信后台运维团队在业务高峰期到来前完成了后台和APP应用在微信红包功能上的升级,硬件进行了相当规模的扩容,对系统运行环境进行了全面整改,对微信红包模块支持人员数量进行了补充和技能提升,这对于最终系统稳定高效运行提供了有力保障.最终的结果也表明,精准运维产生了积极的效果.2015年微信发红包,除夕摇一摇总次数110亿次,峰值1400万次/秒,8.1亿次每分钟,微信红包收发达10.1亿次!惊人数字再次让人们好奇,2015年微信红包方式与去年用户与用户之间互发红包相比,摇红包的方式对业务量来说是一个极大的爆发,光是除夕10:30送出的一波红包就达到了1.2亿个,已经是2014年除夕夜峰值的4800倍之巨(2014年峰值每分钟被拆开红包数量仅2.5W个)! 我们在惊叹腾讯再次创造奇迹的同时,仔细想想,微信摇红包是个业务,实现这个业务的是它的信息系统,就是说配什么样的员工、用什么样的硬件、怎样的应用更合理,需要什么样的环境,这些决策都需要基于预测用户的群体意识和需求,以此为目标导向进行大数据分析和匹配度分析,进行资源的优化配置,从而实现微信红包业务的高效运行. 作者:李鹏,《IT运维之道》作者. (编辑:ASP站长网) |