二、运维人员应具备的素质
运维管理是需要人去做的,如何才能管理好一个数据中心,才能充分发挥数据中心的作用,使之能更好地为云计算提供强大的支持能力。运维人员应具备什么样的素质才能做到这一点呢?一般说需具备以下三个方面的条件。
1、深厚的理论基础
这部分知识来源于学习和不断地研究,比如看书和培训。有了这样的理论基础也就减少了对问题分析的盲目性。否则碰到问题就不知所措,无从下手。如图1所示是某数据中心
图1某数据中心供配电结构原理图
供配电结构原理图。如图所示,两台120kVAUPS并联后送到两个配电柜,每个配电柜各有35个16A的微型断路器。一天夜里1#配电柜突然有八个输出断路器跳闸。后来检查结果是一个IT电源输入短路,两个IT电源输入保险丝烧断。这就提出了如下的问题:
(1)为什么三个电源故障导致八个断路器跳闸?
(2)因为是一个电源短路为什么八个断路器跳闸?
(3)为什么跳闸都发生在1#配电柜,而2#配电柜没有任何反应?
以上的几个问题如何解释?这里面包含了理论、经验和对电路与器件的了解。
又如,某化工单位在定期为240kVAUPS电池放电时,由于负载太小,只好将电池组取下来用假负载放电。放电后又将电池组接回原处,合闸后机器突然爆炸和起火。专家检查后发现电池的极性连接正确,但所有逆变器功率器件和整流器后面的所有电解电容器统统烧毁!于是专家还是就作出了是“机器质量问题”的结论。结果代理商赔了一台新机器。是机器本身的质量问题吗?为什么电池放电前机器一直运行正常,而放电后就起火爆炸呢?就算是质量问题也不会在同一时间所有这些器件都达到报废的程度!这又如何解释?如此等等,如果不站在理论的高度上去分析,单凭经验和直观视觉就一头雾水,就不能做出公允的判断。“机器质量问题”的结论肯定是错的,错在哪里?错就在不懂UPS的结构原理。
又如,某机关数据中心购置了4台200kVAUPS做2´(1+1)连接,如图2所示。机器安装后在考机期间,为了检测在市电转换时的输出不间断功能,就在转换开关ZB1由市电1向市电2切换瞬间分路断路器ZB2和ZB2跳闸,两路并联UPS1和UPS2各坏了1台,检查发现都是可控硅整流器烧毁和控制电路板受损。按道理说由市电1切到市电2是一个很
图22´(1+1)连接供电系统
普通的操作,即是UPS最普通的功能之一,为什么会出现如此情况?而且修好后不到一年又一次市电停电停电时,UPS转为电池供电模式,待市电恢复后UPS的输入电压就不能投入了,一直是逆变器供电。为什么?为了工作再不受影响,用户只好将其淘汰!为什么会这样?调查得知该机器是打着进口品牌的国产品,而且该生产者是一个国内不知名的小厂。在用户购置该UPS的时候,国内知名的几家UPS制造商也刚刚达到生产该容量的水平,且大都是仿制。不用说这一家也是仿制。问题是为什么的仿制就会出现如此多的问题呢?技术分析留待后面,这里只分析产品和知名厂家的不同,其不同就是仿制技术水平的差别(这可从UPS故障后两个月以后才修复看出技术水平不佳)、生产平台的差别(机内布线和控制电路板外观粗燥)、元器件等级的差别(更换故障部件不是一次成功)、检测手段的差别(出厂产品做市电切换是常规手段,这次故障说明产品出厂时连最常规的实验都没做)等。由于用户缺乏这方面的知识,没有向厂家提出采取相应的应对措施,才会很快又出现第二次故障。
2、丰富的实践经验
理论来自学习,但必须和实践经验相结合。一般说经验多数来自教训,所谓失败是成功之母就是这个道理。这里所说的经验是经过反复实践证明的,是经得住考验的。往往好多所谓经验并不是真正的经验而是经历。比如不少人认为零地电压干扰负载,并能举出一些实际例子加以证明。比如举例者说:一次,机器系统工作异常,经查找发现零地电压大于1V,于是就将电源的零线和地线短接,结果异常消除了。当问及是否又将零地短接线断开时,其回答是:“既然工作正常了还断开做什么?”首先这个经验是不完全,只做了一半。一个完整的经验应该是:零线和地线短接后异常消除,接着再将零地短接线断开,如果此时系统工作又出现异常,就说明是零地电压干扰系统;如果将零地短接线断开后系统仍正常工作,就不能说明零地电压干扰系统。这里的误区是当事者听信了传说‘零地电压干扰负载’的影响,在他的心目中已有这个印象,这次的经历正好迎合了这种心理,所以就错误地认为这就是经验。
大都有这样的经历:比如原来的显像管老式电视机,看的时间长了就会出先这样的毛病:电视机正在收看节目时突然影像没有了,一般的做法是拍打几下电视机外壳,大都是影像出现了。有了这一次的经验,以后只要影像没有了就去拍打外壳。可说是有了多次‘经验’。难道就可以说这个电视机所以经常出现黑屏就是因为‘欠打’吗?很明显这是误解。总有一天将电视机拍打的彻底黑屏为止,或烧掉。
3、很强的责任心
这一点尤为重要,技术好并不代表责任心强。比如某金融数据中心一位技术很好的运维工程师,开始的确是严格按照机房守则每两小时抄一次UPS显示屏上的数据,几个月下来显示屏上的数据总也不变,他都背熟了。从此开始机房就再也不去了,按照记忆每两小时填一次表。突然一天半夜机房内市电故障停电,UPS转为电池模式继续为机房IT系统供电,这位工程师早晨上班后仍按习惯没有去机房巡视,就直接将记忆中的数据填入表中,几小时后由于电池的储能枯竭致使UPS输出停电,机房设备全部停止运行。可惜的是后备发电机控制屏的开机旋钮指在“手动”位置上,本来可以避免的故障就这样出现了,给单位造成了严重损失。
再者,责任心强如果制度定得不合适也会导致故障。如在前面“深厚的理论基础”中提到的例子,这位工程师责任心是很强,做到了定时为电池放电保养,但由于制度定的不细使得只有一个人的情况下单独操作,结果由于误操作而导致故障。在对待高压(不论是直流还是交流)情况下应该是两人在场,一个人操作一个人‘监督’。
4、业界普遍对供电系统认识的十大误区
飞轮储能式和静止变换式UPS在上世纪六十年代就已出现,至今已有五十多年。产品在技术上已经很成熟。但由于仿制者、使用者和销售者不是第一线的原设计者,大都没有很好地领会原设计者的意图,再加之对电路理论的欠缺,虽对原设计电路做了某些修改,但仍属依葫芦画瓢。有些基本概念还是不清楚,结果也误导了使用者和销售者。尤其对用户的采购和运维带来了负面影响。先举例如下:
(1)认为输入功率因数为0.999(接近于1)的UPS可以配同容量(即1:1)的发电机
当代高频机型UPS的输入功率因数都在0.99以上,可以认为接近于1,于是就声言‘可以配同容量(即1:1)的发电机’。这种说法容易把用户带入歧途。因为再用六脉冲整流输入的工频机UPS时,其配套惦记的容量至少为UPS容量的三倍,在用高频机时无形中就节省了后备发电机的投资和占地面积。但事实并不是如此,首先要看发电机的负载功率因数,如果发电机的负载功率因数为1,上述UPS与发电机的配比是正确的。可惜的是当代后备发电机的负载功率因数多为0.8,这时发电机的容量就必须加倍(后面有说明);这是其一,其二是当UPS为单机或1+1冗余结构,甚至双总线供电结构时都有一个过载量的问题。比如大多数UPS都有过载到125min、过载到150%30S~1min的能力。在电机供电模式中这个超过UPS额定容量的部分仍应该由发电机提供,因此1:1的说法太笼统,要是具体情况而定,不能一概而论。但在实际中这种1:1的说法给用户带来不少损失。
(2)认为UPS有两个功率因数
众所周知,一个电路、一个设备定型以后,其性质也就定了。功率因数是表征负载性质的一个参数。真正懂电路的人都清楚:一个电路、一个设备只有一个功率因数,那就是输入功率因数。就是这个功率因数决定了电路和设备的性质。任何电源和任何电路无一例外。电路有输入阻抗和输出阻抗,唯独没有输出功率因数。在学术上定义的任何一个参数都是可以操作的,即可以测量的。比如包括UPS在内的任何电源的输入功率因数由于是唯一的,所以是可以测量的。当今的高频机型UPS输入功率因数可以高达0.99以上,它在任何输入电源(市电、发电机和正弦电压发生器等)为正弦波电压的情况下都是0.99以上。但是有的人却把负载端的功率因数误称为输出功率因数,无形中就把这个功率因数归属于电源了。这样的叫法会给人们带来好多误解。把负载功率因数称为输出功率因数,这就出现了两个无法解释的问题:
其一,这个所谓“输出功率因数”不是唯一的,因为带什么负载就是什么功率因数,比如带线性负载这个功率因数就是1,带老的IT设备这个功率因数就是0.7,实际上就说明这个功率因数是负载的输入功率因数。如果非要称之为UPS的输出功率因数的话,那就来测量一下,如前所述UPS带什么负载就是什么功率因数,实际上是负载的输入功率因数。就是不带负载时(空载)才是UPS的输出功率因数。设这个输出功率因数为FO,根据功率因数的定义:
(1)
式中PO是有功功率,因是空载所以为零;SO是视在功率,因是空载所以也为零。式(1)的结果是个无理数,如果用功率因数表去测量,根本测不出来。
其二,UPS的输出阻抗是容性的,既然是UPS的输出功率因数,那么这个功率因数也应该是容性的,即功率因数的符号应该是“+”。同时这些人认为以前服务器也是容性的,这就出现了电源输出和负载输入同性质的情况,就不存在谁补偿谁的问题了。而实际上,电源的容性输出无功功率是补偿负载感性无功功率的。而且以前UPS就是按负载为感性而设计的。可惜有的制者能作出这样的电路设计而不知为什么这样做,这就是仿制者的误区所在。
这里又有一个问题,负载功率因数既然不是UPS的输出功率因数,看来和UPS没有什么关系,但又为什么要出现在UPS的参数表里?这个负载功率因数所以出现在UPS的参数表里是因为没有这个参数UPS就没法制造。UPS既不是空气也不是水,即它不是通用的。这和电磁炉一样,电磁炉的负载只能是导电和导磁的锅具,而微波炉内绝对禁止导电和导磁的器具。UPS也有着它特有的供电对象,最早期它的供电对象是计算机,而计算机的输入电源都是整流滤波方式,是电感性的输入功率因数,其值在0.8左右,因是感性所以标为‘-0.8’。这就是为什么早期进入我国的所有UPS的负载功率因数都是-0.8。其含义就是:这台UPS是专为输入功率因数为-0.8的负载设计的。因为它的输出电容的容抗设计值正好抵消负载的感抗值。以往几乎所有电子负载都是感性的。这个负载功率因数值是万万不可缺少的,没有它用户就无法合理选择UPS的容量。有不少用户就因为不了解这一点,所以选购的容量差异很大。
(3)当功率因数