首席架构师白鳝:运维的进阶与哲学之道(2)
不同阶段的运维人员不同阶段的运维人员,分析方法、思路是不一样的. 首先,刚入行的,往往会根据现象去分析问题,可是如果碰到一些“超自然”现象就束手无策了.其实不存在诡异的“超自然”现象,任何现象都是有根源的,只是能力认知范围上的不足. 随着能力的提升,我们可以通过抓到系统运营的一些指标、基线去分析问题.但是,光是有指标和基线也仍然不够,假设我们判断一个系统是不是已经达到它的负载极限,是需要根据系统容量来判断的,比如说这个存储能提供多大的IOPS,超过多少额度颜色会上升,运维人对于这些容量指标体系必须有所了解. 另外,如果再往架构师方向发展,就会从整体角度来思考,辩证地看待问题.达到这一地步的话,我们可戏称这人“成精”啦,因为他已经超脱了普通的一种运维范畴. 如何辩证地看待问题举几个比较典型的点:
运维中的哲学问题下面进入本次分享的重点,运维中的哲学问题,到底包括哪些问题? 问题1:保证没问题还是不怕有问题?
就像客户经常会问,这个东西到底有没有问题,能不能100%地保证.这个其实很难保证,对运维人员来说,我想应该没有人敢这么讲.敢于承认有问题也是对自身能力的一种认可.
不怕有问题,这是一个更高的层面.即在系统架构上,哪怕出了问题,也可以顶起来.不怕有问题是对系统架构上的自信.
对于运维人员来说,最怕的是什么呢,莫过于总是想通过我的能力去确保系统不出问题.一个人再有能力,始终是有限的,而架构的保障正是弥补人力不足的一种最好手段,而且很多时候架构优化的投入成本并不大,在这种条件下,我们没有理由去放弃架构而选择人力.就算整个团队24小时轮流值班,早晚也撑不住.
最后又绕回来了,有些东西不是绝对的,能力当然重要,架构也很重要. 在这里,我讲一个跟这有关的问题.我们可能会经常出现误操作,导致数据被删、数据丢失,这说起来不是一件很Low的事情了.像前段时间Salesforce系统丢了5小时数据,就是因为操作人员的低级失误,所以说误操作是不可避免的,我们只能尽量采取一些措施来减少发生. 对于DBA来说,最好的防御就是一方面提升自己的能力,养成良好习惯,通过工具防误操作,另一方面在一些关键操作上,实行双人审核. 对于架构师来说,设计合理的架构则是最好的防御.当数据误操作时可以快速地恢复. 问题2:你的系统需要0数据丢失吗?什么情况下我们能做到0丢失?不同人有不同的答案. (编辑:ASP站长网) |