因为这世界上还有一个工种叫运维。
服务器是非常容易坏的。虽然单体损坏的可能性非常低,这是由服务器的冗余性设计来保障的。但是当成百上千的基数乘以这个概率的时候.....就天天忙到死了。
我帮忙维护过一个30多台的小机房。企业内部自用,条件很一般。
破空调坏了,万幸是冬天,直接开窗进冷风。平时保持在27度的服务器降到21左右。壮哉我大东北。
每次设备清灰都觉得自己会得尘肺阿....黑色非常细的静电灰。
每次设备维护和调整都要选尽量晚阿。我们即使企业内部自用的。也得等公司所有人下班了才能开始操作,而且遇到加班的要继续等。
所有操作前第一个想法是备份备份备份。我错删过VP两个虚拟机我说什么了。。带我的组长独自恢复一阵列硬盘100+个虚拟机的数据说什么了.....
向不明真相的小伙伴解释为啥服务器会坏?还是想办法做热备份更容易吧。
也别嘲笑我待的环境差我们技术差。每一个运维都在努力让自己的设备达到各种6个9乃至9个9的可靠性。只能说我们尽力了。
服务器在设计的时候做了大量的备份冗余,在使用的时候运维在不停排除故障。在软件层面大家一起努力设计了hadoop,hdfs,lvs等等一系列的维护系统和灾后修复策略。
这一切最终在用户看起来就是“服务器为什么不会坏”,因为我们100%确定服务器一定会在不久的将来坏掉。