当确保数据中心具有更大的弹性时,组织定期维护为其提供电源保障的不间断电源(UPS)至关重要。而其维护旨在大限度地降低风险,并使UPS以安全的方式运行。但是,如果执行维护的行为本身就构成了风险呢?组织能采取什么样的应对措施?
例如英国一家航空公司的数据中心在2017年夏季由于人为失误发生故障。而人为错误是在UPS维护过程中出现问题的主要原因,工程师可能会按错开关,或者按错误顺序执行程序。
尽管在这些情况下指责工程师的疏忽很容易,但这种错误通常是由于操作程序不规范、标识不良,甚至是培训措施不到位所造成的。通过在UPS安装开始时消除这些问题,可以避免风险。
例如,如果安装的UPS系统是由大型并联UPS和复杂的开关柜组成的供电系统,则应在设计中加入连锁装置。这些措施促使用户以受控和安全的方式进行切换,但在项目开始时往往被排除在设计之外以节省成本。
全天候运行的设备监控还提供强大的保护功能,应该成为组织维护系统的一部分。而严格的培训也是至关重要的。
采取简单的措施也能有所作为。通过实时更新基本标签和切换示意图可以避免灾难的发生。建议组织提供明确的切换程序的文件记录。如果现场维护非常关键,维护人员实施时将相互提醒(两名工程师在执行每项行动前都会检查执行程序)将防止大多数人为错误。
采用先进技术
任何维修和维护都可能会为UPS或开关设备带来风险,所以需要减少维修次数。而出现的大多数问题(包括电气部件的故障)都可以通过监控电气部件的热量提前检测出来。
例如,如果电气部件的连接点没有拧紧,它将开始升温并终以某种方式失效。而检查每个连接有效的解决方案是采用热成像技术。热成像技术可以识别潜在的问题。
监控设备和能力
全天候的设备监控还提供强大的保护功能,应该成为组织维护措施的一部分。严格的培训也至关重要,同时确保设备主管工程师能够胜任工作。
组织的维护人员不要害怕向维护服务提供者提出问题,他们有责任提供合格证明,这与组织本身及其工程师有关,并且总是需要检查现场处理情况。
强大的维护措施还应该确保当UPS发生故障时得到及时和有效的响应。服务级别协议需要适用于应用程序的关键性。如果仅在正常运营时间内才能访问UPS,那么对于UPS的全天候的响应,这样的维护合同没有意义。也就是说,如果数据中心全天候运营,并对业务非常关键,那么全天候的响应是必需的。
组织需要确切地说明响应的构成,这也许只是一个或者到现场处理的工程师,并需要审查工程师的资质和水平。
对组织当前的UPS维护程序进行审查,将有助于确定并降低组织以前可能没有预料到的关键操作的风险。组织通过进行尽职调查,可以避免发生事故。