设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 服务器 > 安全 > 正文

承载IT运维成功之梦:精准运维(2)

发布时间:2021-01-06 17:55 所属栏目:53 来源:网络整理
导读:实现资源优化配置、提升资源利用率 IT系统于业务应用来说,有可能资源不足,也有可能资源过剩,通过精准运维的方法,不仅能解决资源不足问题,还可有效应对资源过剩的局面,将“闲置”资源充分利用起来.打个比方说,一个营

实现资源优化配置、提升资源利用率
IT系统于业务应用来说,有可能资源不足,也有可能资源过剩,通过精准运维的方法,不仅能解决资源不足问题,还可有效应对资源过剩的局面,将“闲置”资源充分利用起来.打个比方说,一个营销系统每日的不超过万条记录的处理量,但当时设计时却购置了配置很高的服务器,当前的服务器性能只利用了不到10%.通过精准运维的分析与评估,完全可以在当前的营销系统服务器上部署虚拟机,作为其他信息系统的运行环境,企业无需再购置新的服务器,从而实现了资源的优化配置,提升资源利用率.

让运维更加向运营靠拢,成为运营的一部分
所谓运营,是指以网站为产品营销平台或产品本身,为开展网络营销而做的一系列工作总称.精准运维不同于传统运维,更为关注业务需求、用户体验,通过对运营过程中的大数据从业务角度进行精准分析,发现用户的需求与业务环节的关联关系,进而从应用软件的角度进行业务模式、流程的改进与调整,让业务更好满足用户需要,从而找到新的业务增长点或改进方向.从这个角度来说,精准运维让运维比历史上任何时候更接近运营,且已成为运营的一部分,能够为开展网络营销贡献巨大的价值.

精准运维该怎么做?

1. 精准运维的初始化—建立风控模型

了解运维系统的业务特点,根据业务和系统运行情况与业务所有者一起着手建立风控模型.风控模型需要体现业务所有者(操作人员、维护人员、管理人员等)以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险,这些数据来源于信息系统运行数据、历史运维数据、用户访谈信息及客户体验信息等.通过综合各方面信息,结合业务,从而建立风控模型,梳理出风险清单.建立风控模型的过程也就是进行信息系统与业务的匹配度分析过程,匹配度高的项必然风险小,匹配度低的项势必风险高.

要素:风控模型的初步建立完成标志是与业务所有者达成共识.

2. 精准运维日常运行之信息采集与反馈

首先,以风控模型为基准,及时了解业务所有者的具体要求并将系统的情况与所有者交流,得到有价值的服务信息;其次,可以利用自动化监控技术采集到用户端的用户体验数据,如访问网站人数、登录系统效率、页面响应速度、访问流量等;也可以利用大数据及最新的ELK技术的方式采集系统日常运行的业务数据、资源使用情况数据、业务运行效率日志数据等.此外,还可以不断与业务部门进行沟通协调,采集用户的反馈与需求.

要素:双方都了解对方的意图,并形成共识.

3. 精准运维日常运行之预测及计划编制

根据采集信息进行预测与计划的编制,所谓预测,就是对尚未发生或目前还不确切的失误进行预先的估计和推断,是现时对事物将要发生的结果进行探讨和研究.科学预测是建立在客观事物发展规律基础之上的科学推断.系统预测的实质就是充分分析、理解系统状况发展变化的规律.用相关性、数据趋势分析法及大数据分析技术对采集的数据进行挖掘分析,分析出业务需求与资源之间的相关性、与运维人员之间的相关性,分析出应用系统使用的历史与未来趋势,根据趋势与现有资源的匹配性来实时优化系统资源和人力资源,并编制详细的系统优化实施方案对系统进行优化.计划即是根据预测和业务所有者要求编制的行动方案.

要素:计划要得到所有者的认可,如需要可优化风控模型.

4. 精准运维日常运行之系统优化执行与实施

根据编制的优化实施方案精心组织实施,且与业务方充分沟通,在不影响业务的基础上完成系统优化、应急演练、风险措施改进的实施服务工作.

要素:注意行为规范.

5. 精准运维日常运行之校验与评估

根据实施结果与业务运行情况及对系统运行情况的采集,不断的校验实施效果,再进一步评估改进,通过PDCA循环往复直至达到系统与业务的精确匹配与心跳同步.

要素:结果要进入下一个环节,即反馈给所有者,如有必要可修改风控模型.

精准运维实例

这里我们拿一个经典案例来说.大家最为熟悉的微信红包,在除夕前后会产生业务高峰,大量用户在同一时间摇红包,瞬间产生每秒千万级的请求,这个量级的请求如果不加以疏导处理直接到达后台,必定会导致后端服务过载甚至崩溃.因2014年春节以后,微信红包业务量呈现快速增长,微信后台运维团队预测2015年春节的业务量将爆发式增长,对系统产生巨大压力.

为应对2015年的春节业务高峰,微信后台运维团队开展了一系列准备工作,首先是针对业务建立风控模型,以风控模型为基础展开下面的工作:

事实上,按照上述步骤,微信后台运维团队在业务高峰期到来前完成了后台和APP应用在微信红包功能上的升级,硬件进行了相当规模的扩容,对系统运行环境进行了全面整改,对微信红包模块支持人员数量进行了补充和技能提升,这对于最终系统稳定高效运行提供了有力保障.最终的结果也表明,精准运维产生了积极的效果.2015年微信发红包,除夕摇一摇总次数110亿次,峰值1400万次/秒,8.1亿次每分钟,微信红包收发达10.1亿次!惊人数字再次让人们好奇,2015年微信红包方式与去年用户与用户之间互发红包相比,摇红包的方式对业务量来说是一个极大的爆发,光是除夕10:30送出的一波红包就达到了1.2亿个,已经是2014年除夕夜峰值的4800倍之巨(2014年峰值每分钟被拆开红包数量仅2.5W个)!
注:上述数据来源于腾讯公司已公开信息.

我们在惊叹腾讯再次创造奇迹的同时,仔细想想,微信摇红包是个业务,实现这个业务的是它的信息系统,就是说配什么样的员工、用什么样的硬件、怎样的应用更合理,需要什么样的环境,这些决策都需要基于预测用户的群体意识和需求,以此为目标导向进行大数据分析和匹配度分析,进行资源的优化配置,从而实现微信红包业务的高效运行.

作者:李鹏,《IT运维之道》作者.

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读