设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 服务器 > 系统 > 正文

运维智能化,新型数据中心的最大看点

发布时间:2021-11-10 10:00 所属栏目:52 来源:互联网
导读:7月初,工信部正式发布了《新型数据中心发展三年行动计划(2021-2023年)》。行动计划从目标到任务,迎合应用,贴合市场,符合国家战略,意在为我国数字经济发展提供有效支撑。 早在2020年,数据中心就被列入国家新型基础设施的范畴。随着新基建的提速,数据
7月初,工信部正式发布了《新型数据中心发展三年行动计划(2021-2023年)》。行动计划从目标到任务,迎合应用,贴合市场,符合国家战略,意在为我国数字经济发展提供有效支撑。
 
早在2020年,数据中心就被列入国家“新型基础设施”的范畴。随着“新基建”的提速,数据中心受到了前所未有的关注。
 
其实,在数据中心领域,高能耗、低算力、高成本、低效率等问题一直困扰着用户,各个国家在数据中心发展上都面临着淘汰旧技术、发展新技术等挑战。
 
同样,数据中心建设、管理、运维智能化成为行动计划倡导的一个发展方向。那么数据中心运维为什么要智能化?会为数据中心带来哪些价值呢?
 
7月27日,由OCP社区主办、浪潮承办的第三届OCP China Day上,腾讯云联合浪潮发布《数据中心服务器智能故障诊断TIFDS(Tencent & Inspur Fault Diagnosis System)系统技术白皮书》,首次阐述了腾讯云与浪潮联合研发的TIFDS系统架构,为大规模数据中心提升服务器运维效率、保障数据中心稳定运行提供重要参考。
 
 
 
OCP China Day现场 腾讯云星星海实验室研发副总监刘超
 
1.大规模数据中心服务器运维面临多重挑战
 
浪潮腾讯大客户部副主任倪旭华在接受记者采访时表示,随着云计算的普遍使用,作为支撑云计算的重要载体之一的服务器部署量在飞速增长,大型IDC数据中心服务器都达到百万量级。
 
大规模数据中心服务器运维存在如下的痛点问题:
 
第一,服务器保有量不断增长,产品种类多样,覆盖范围广。运维人员要能够快速准确地进行各类故障的快速运维,对其技术要求是很高的,同时对所有的机器快速运维的难度会更高。
 
很多故障信息的完整度、准确性不强,可解读性也比较差,技术人员难以进行准确诊断和维护。
第三,以往服务器故障都是通过一些人工手动的方式去分析、诊断,人力成本高,效率低,很难满足用户快速恢复业务的需求。
 
另外如果用人工的方式往往会产生二次故障,因为人工的判断会存在准确性的问题,二次故障会带来更大的损失。
 
 
 
浪潮腾讯大客户部副主任倪旭华
 
腾讯云星星海实验室研发副总监刘超介绍说,目前腾讯云数据中心运行超百万台以上的服务器,以往服务器出现故障后,传统的做法是需要L1、L2、L3维护的过程,最早可能是要厂商的工程师去现场找到服务器的log,进行分析,将结果返回到厂商的研发部门,再去做分析,这个耗时非常长。
 
数据中心服务器维护目前面临着故障无法准确定位、故障诊断效能较低、诊断成本高时效性差、易造成二次故障等多方面的挑战。
 
 
 
腾讯云星星海实验室研发副总监刘超
 
 
 
2.TIFDS系统的妙用
 
腾讯云基于百万量级服务器运行的宝贵数据和经验,与浪潮联合研发构建了全新的数据中心服务器故障AI诊断系统TIFDS,实现了风险实时预警、故障精准诊断和日志定制化透明安全,实时保护数据中心的稳定。
 
刘超和倪旭华将TIFDS的功能总结为三点:
 
一是风险实时预警。该系统基于腾讯云现网运行的百万台服务器运维经验,结合AI智能算法,可对非宕机类故障进行实时预警,降低服务器高负荷运行下突然失效的风险。
 
二是诊断精准高效。通过构建专家经验库,故障自动明确化率提升至95%以上,远高于业界平均标准,秒级告警,精准反馈故障触发源,提升运维效率。
 
三是定制化日志透明安全。创新性地按照腾讯云需求,联合定制日志输出上报方式,使诊断过程清晰透明,并对疑难问题进行了识别并建立了线上联合诊断系统,不断提升系统运维效率。
 
 
 
TIFDS系统
 
腾讯云与浪潮联合打造的数据中心服务器智能故障诊断系统TIFDS,可以解决数据中心服务器维护面临的挑战,为行业发展指明了一个方向。
 
3.效率成本方面带来的价值
 
倪旭华说,故障诊断系统TIFDS相对有效地解决了数据中心服务器维护面临的挑战,并在效率、成本等方面,为用户带来价值。
 
在效率方面,一是在时间维度上,可以快速诊断。从目前统计的数据来看,机房的故障往往可以通过秒级的反应时间,迅速地定位故障对应的部件。二是从质量维度看,因为可以精准的定位故障位置,用户可以快速地实现对应故障部件的更换,从品质的角度讲这是一个非常高效的方式。
 
从成本的角度,又快又准带来更直观的表现是成本的节约。
 
对于机房运维人员来讲,可以通过自动化的方式去快速的更换故障部件,可以节省大量的人力成本。从云运营商角度来讲,可以实现快速的运维,业务恢复效率就会很高,原来针对故障需要准备备份的资源消耗就会变少。
针对终端的用户,比如使用云的用户,快速恢复了业务,不再需要做数据的迁移和对应业务的迁移,对于终端用户来讲也可以节约大量成本。            
整体上讲,TIFDS故障诊断系统其实是一个阶段性的非常大的突破,也给我们业界提供了一个很好的实例参考。
4.智能运维成为数据中心发展大方向
 
刘超说,对腾讯云高速增长服务器的保有量和增量而言,靠肩扛手挑这种方式完全不可能满足发展的需求,有时候远远不是效率高低的问题,而是能与不能的问题,整个数据中心的运维必须要走向智能化。
 
腾讯云作为产业互联网的主要倡导者,积极的响应国家“新基建“号召,已在全球27个地理区域部署了150+个数据中心,并在2020年投入建设了可容纳百万服务器的清远云计算数据中心,成为了腾讯云首个开服的超大规模数据中心,也是华南区迄今为止最大的新基建项目。
 
为了更高效准确地管理百万级服务器,智能化的监控诊断系统必不可少。腾讯云作为国内首家突破百万台量级规模的云厂商,长期致力于引领中国数字经济的发展,构建更具创新力的基础设施运营。
 
浪潮作为全球前三、国内第一的服务器龙头企业,秉承创新的理念,以为客户创造价值和为企业增加效益为使命,通过强大的研发能力和创新能力,为客户提供领先技术。
 
双方在海量服务器运维中积累了重要创新实践经验,基于联合研发(JDM)模式共同探索服务器智能化运维发展,联合研发出领先的TIFDS故障诊断系统,并制定了数据中心服务器智能化故障诊断方案框架,希望通过《TIFDS数据中心服务器智能故障诊断系统白皮书》为行业带来一些革新的思路和视角。(白皮书下载:https://app.ma.scrmtech.com/resources/ResourcePc/ResourcePcInfo?pf_uid=10736_1438&id=23073&pf_type=3)
 
 
 
未来,数据中心智能化是大势所趋,AI、RPA、机器人等各种新技术都会发挥越来越重要的作用。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读