如何正确认识互联网运维工作?(2)
对数据库单点风险和故障设计相应的切换方案,降低故障对数据库服务的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保障成本不增加或者少量增加的情况下,数据库可以支撑更多的业务请求. 6.自动化系统建设 设计开发数据库自动化运维系统,包括数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审核和上线、故障切换等功能. 7.运维研发 运维研发负责通用的运维平台设计和研发工作,如:资产管理、监控系统、运维平台、数据权限管理系统等.提供各种API供运维或研发人员使用,封装更高层的自动化运维系统.详细的工作职责如下所述. 8.运维平台 记录和管理服务及其关联关系,协助运维人员自动化、流程化地完成日常运维操作,包括机器管理、重启、改名、初始化、域名管理、流量切换和故障预案实施等. 9.监控系统 负责监控系统的设计、开发工作,完成公司服务器和各种网络设备的资源指标、线上业务运行指标的收集、告警、存储、分析、展示和数据挖掘等工作,持续提高告警的及时性、准确性和智能性,促进公司服务器资源的合理化调配. 10.自动化部署系统 参与部署自动化系统的开发,负责自动化部署系统所需要的基础数据和信息,负责权限管理、API开发、Web端开发.结合云计算,研发和提供PaaS相关高可用平台,进一步提高服务的部署速度和用户体验,提升资源利用率. 运维安全运维安全负责网络、系统和业务等方面的安全加固工作,进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理.详细的工作职责如下所述. 1.安全制度建立 根据公司内部的具体流程,制定切实可行,且行之有效的安全制度. 2.安全培训 定期向员工提供具有针对性的安全培训和考核,在全公司内建立安全负责人制度. 3.风险评估 通过黑白盒测试和检查机制,定期产生对物理网络、服务器、业务应用、用户数据等方面的总体风险评估结果. 4.安全建设 根据风险评估结果,加固最薄弱的环节,包括设计安全防线、部署安全设备、及时更新补丁、防御病毒、源代码自动扫描和业务产品安全咨询等.为了降低可能泄露数据的价值,通过加密、匿名化、混淆数据,乃至定期删除等技术手段和流程来达到目的. 5.安全合规 为了满足例如支付牌照等合规性要求,安全团队承担着安全合规的对外接口人工作. 6.应急响应 建立安全报警系统,通过安全中心收集第三方发现的安全问题,组织各部门对已经发现的安全问题进行修复、影响面评估、事后安全原因追查. 运维工作发展过程早期的运维团队在人员较少的情况下,主要是进行数据中心建设、基础网络建设、服务器采购和服务器安装交付工作.几乎很少涉及线上服务的变更、监控、管理等工作. 这个时候的运维团队更多的属于基础建设的角色,提供一个简单、可用的网络环境和系统环境即可. 随着业务产品的逐渐成熟,对于服务质量方面就有了更高的要求.这个时候的运维团队还会承担一些服务器监控的工作,同时会负责 LVS、Nginx 等与业务逻辑无关的 4/7 层运维工作.
由于业务规模和复杂度的持续增加,运维团队会逐渐划分为应用运维和系统运维两大块.应用运维开始接手线上业务,逐步开展服务监控梳理、数据备份以及服务变更的工作. 随着对服务的深入,应用运维工程师有能力开始对服务进行一些简单的优化.同时,为了应对每天大量的服务变更,我们也开始编写各类运维工具,针对某些特定的服务能够很方便的批量变更. 随着业务规模的增大,基础设施由于容量规划不足或抵御风险能力较弱导致的故障也越来越多,迫使运维人员开始将更多的精力投入到多数据中心容灾、预案管理的方向上. 业务规模达到一定程度后,开源的监控系统在性能和功能方面,已经无法满足业务需求;大量的服务变更、复杂的服务关系,以前靠人工记录、工具变更的方式不管在效率还是准确性方面也都无法满足业务需求.
这个时候系统运维更专注于基础设施的建设和运维,提供稳定、高效的网络环境,交付服务器等资源给应用运维工程师.应用运维更专注于服务运行状态和效率. 数据库运维属于应用运维工作的细化,更专注于数据库领域的自动化、性能优化和安全防御.运维研发和运维安全提供各类平台、工具,进一步提升运维工程师的工作效率,使业务服务运行得更加稳定、高效和安全. 我们将运维发展过程划分为4个阶段,如图1-2所示. 图1-2运维发展过程 (编辑:ASP站长网) |