运维如何为公司节省一个亿?(2)
再说SET的容量管理,平台级SET就意味着用户量和请求量不会暴增,那么对于SET的可运维性而言,我们必须要对SET的请求量和用户量等指标进行量化度量.为此,运维赋予SET一个可量化的指标,在我们的场景下,如在线用户数、核心请求量等视SET的用途而定,基于压测可以得到单SET的最合理的容量值,该值符合木桶原理,也就是我们的木桶管理法,SET由多个模块组成(SET=木桶,模块=木板),支撑一定的用户量,SET的容量管理就像木桶原理一样,木桶的水位高低取决于最短板,因此SET的最大容量取决于SET中性能最低的模块容量. 腾讯的平台级业务同时在线用户数是相对稳定的,也就意味着全国要实现多地多活,需要准备多少冗余容量是可预期可规划的,换而言之,要部署的SET的数量是能被提前量化的.同时,结合业务的自动化部署、调度方案、柔性策略和有损服务能力,我们就可以利用很合理的成本就能实现异地多活. 举例说明,假设我们共有1000w的同时在线用户,且用户量相对稳定,我们就可以规划3个支撑500w在线的SET,利用业务架构的调度能力分别让3个SET的容量平均化,在灾难场景时,1个SET不可用,另外两个SET可以完全容灾,在此规划下,极端场景2个SET不可用是要开有损服务的.通过量化SET管理,业务运维则可以灵活的根据成本管理的需求调整SET的容量水位,以达到最优性价比的高可用架构.
关注硬件瓶颈,升级硬件降低单机运营成本.比如,过去做UGC内存存储时(QQ相册、视频),使用了大量2T硬盘,当4T、8T硬盘成本量产使用,及时的升级硬盘容量,可以有效的提升单机存储量,以规模效应实现花小价格换来了大成本.又如,在图片社交或视频社交的业务场景下,因玩法的多样性需求,会延伸出很多计算量繁重的逻辑,像人脸识别、鉴黄等功能,这时候选用GPU设备代替CPU设备,也是让性能飞的一种有效做法.(该方法尤为适用于UGC类的存储量只增不减的业务,如微云、网盘、图片存储、视频存储等.) 后记: 包括但不限于上述6种容量管理的方法,使得我们能在用户数据只增不减社交UGC业务中,能稳步的可持续前行.设备成本管理还涉及很多细节的技术手段和业务代码优化,本文只是从运维的视角阐述对容量管理的思考,希望能够抛砖引玉,对各位同行有帮助.带宽成本管理的优化带来的成本节省价值会更大,因为其中涉及的技术点和方法论更多,此文不深入探讨. 文章出处:互联网运维杂谈 推荐阅读 堡垒机,让运维人员不再做“黑锅侠” 《运维知识体系》介绍及研讨会 (编辑:ASP站长网) |