如何重塑中小企业运维价值
《如何重塑中小企业运维价值》要点: 作者序:搞了好多年安全,一不小心掉入运维的“坑”里. 在摸索运维业务的路上,不断的踩坑,不断的爬出来. 我们的团队在成立公司的初夜解散,随后各奔东西. 也许,成长,总要经历过一些事情吧. 坑不断,踩还乱,离也愁,还是写点东西压压惊吧…… 1、开篇写点什么呢?运维,专业一点说叫做“可靠性支持工程师”,方言称为“背锅侠”.本篇小文不谈大企业,因为 BAT 企业总有专职人员做专职的事情,诸如:数据库管理员,系统管理员,桌面管理员,网络工程师等诸多岗位…… 但在中小型企业里,“背锅侠”不光身兼数职,还要面对各种问题. 系统总要持续跟进及优化,“锅”总要有人背,运维的价值又何在? 话说企业使用了各种云来解决服务器运维的需求,是不是就不需要运维了? 作为与我一样背锅侠的你,是否也曾想着多考几个证书,来提升薪资?你的话语权是需要证书来获取? 还是能力来获取? 带着问题,我们来进行拆解和剖析,希望能让你有所收益. 2、为什么背锅侠总是我?我也曾是小公司的一名“背锅侠”,从服务器采购,到背着服务器去机房上架;从给老板 PC 装系统,到公司内网布线;从软件性能测试,到写优化文档;我就是这么一个角色. 然而,运维的“背锅”总是相对于开发而言的,你越是在底层,你的技能越少,不能解决业务的痛点,没有话语权.这“锅”你不背,难道让老板背吗? 这里举个例子:某公司开发使用的技术栈为 Java,开发同学发布的是 war 包,Tomcat 容器,MySql 数据库. 需求完成后,上线发布,开发同学没有在测试环境测试(偷懒),只是在本机开发环境下功能正常,把 war 包交付给运维同学.运维同学修改配置文件后发布上线,奇葩出现了,某个文件上传功能调用即崩溃. 这时,运维同学在检查了各种目录权限及配置后,把这个问题反馈给开发.这时,开发同学为了避免加班,说:“这是你 Tomcat 容器崩溃,又不是我的应用程序崩溃.”运维同学很无奈,老板又不懂.这时解决方案是什么? 运维明知自己加班是徒劳的,可又该怎么办?如果运维去和开发吵架扯皮,一定是情商严重不足.这时候,老板信任开发. 运维同学在仔细查看 log 后,对比内网 git,发现开发同学打包时少了一个组件,运维手动打包,发布上线,问题解决.老板却认为这是运维应该做的. 上面这个例子在中小型IT企业中很常见,并非个例,“背锅”源于给开发“擦屁股”.如果我们不能扭转老板的思维,那就要让自己变得更有价值. 作为运维,如果你并没有 Java 技能,那就要学习,让这个岗位换个人做不了,提升个人技能.到更好的公司,你才有可能擦到更好的“屁股”. 但是,这是否与运维本身背道而驰? 问题与风险始终是存在的,面对问题与风险,我们更需要的是拥抱,而不是逃避.你可以为开发擦一次、两次、三次,但你并不能做永久的保姆. 3、再谈谈企业的需求与看法企业到底需要什么?运维怎么做才能让老板满意,让团队满意?剖析这个问题,先学会换位思考. 如果你是老板,你认为运维应该做什么?我走访了一些中小企业老板,总结出以下几点:
下面不逐一展开说了,只着重说几点. 3.1 一个运维的学习能力首先说学习能力,我认为更多源于自我技能与技能提升,在这个技能高于学历的时代,可是我还是没有找到合适我的工作(苦笑). 一个靠谱能出活儿的运维到底需要具备哪些技能? 首先你得会装系统(哈哈),系统装的多了,你才可能去写自动化的系统安装脚本; 好了,写脚本,BashShell 也许是我们每天面对的,但并不是全部;有些任务交给 Python 或其他的语言工具似乎更合适; 公司业务出故障了,你要去“擦屁股”,公司业务用什么开发?什么?你不会?怎么可能?至少要懂一点吧,好了,这个时候你可能接触到 PHP/JAVA 当然还有其他,等等; 开发交付的就有问题,好,问题在哪里?如何测?要给出应对的解决方案吧!服务器被攻击了,你要顺藤摸瓜找到应对措施吧?不知道如何攻击你还谈什么防御?安全攻防渗透入侵总要懂一点…… 好了,你都懂一点,但好像什么都不专精……等等,谁说的?给我一个星期,练一下增删改查和公司开发环境配置,我就转岗去做开发了!OK!没问题!可是,公司到底是要运维的,学习能力与自身技能似乎本来就不矛盾; 噢对了,还有一句话这么说,一个靠谱的,能出活儿的运维,一定可以承担起架构的角色,运维本身就是在搭开源的盒子,就像堆积木一样,运维当然知道什么组件用在什么地方是最合适的.你们猜这句话谁说的? 当然,这是我说的.比如说,某些业务,用到了5台 apache,我们做过优化,同样配置的主机,2台 Nginx 就足够了,为企业降了3台服务器,省了钱.这难道不是具体的运维价值体现吗? 3.2 运维要有风险可控意识风险可控:稳定、性能、安全.
稳定可控,举个例子:某个业务服务每隔3天就要重启,每天都在夜间23:30重启,问题的具体现象为,每隔5天就崩溃,但你并不知道为什么会崩溃. 首先,这并非稳定,如果你能通过合理的配置,把3天重启改为3周或30天.至少在一定程度上提高了稳定性. (编辑:ASP站长网) |