联系我们

Contact
厦门唯友峰机电设备有限公司
电话:0592-2205670
传真:0592-2202290
营销部:18965130041  (王先生)
地址:厦门市软件园三期诚毅北大街51号302单元
邮箱:xmwyfjd@163.com

当前位置:首页> 新闻资讯

创建可持续的数据中心运营系统

* 来源: * 作者: * 发表时间: 2020-10-05 0:25:41 * 浏览: 9
为了确保数据中心的连续运行,设计,构建以及运行和维护同样重要。本文简要介绍了设计验证,施工验证,运维系统以及风险评估。特别是从运维管理的角度,分析了上述验证和评估的重要性。 1概述确保数据中心的连续运行,设计,构造以及运行和维护同等重要。从运维管理的角度来看,设备运维与人员管理是两个互补的方面,形成一个完整的过程。作为数据中心经理,最终目标是安全,高效和可持续地运行。安全是最重要的任务。如果机房发生事故,则无法继续。然后讨论效率和绿色可持续性的概念。这是整个大型系统的思想。那么,大多数使运维人员无法入睡的问题是什么?请参见图1。从图1中可以看出,可用性,缺乏高素质的操作和维护人员以及缺乏良好的管理流程是头三个令人头疼的问题。图2显示了2016年至2017年数据中心故障的统计数据。从该图可以看出,2016年数据中心应用程序中断故障的比例为13%,2017年上升到18%。故障和事件的原因(同时有多个原因),主要包括设计和施工过程中的问题(49%),运行和维护系统过程中的问题(44%),人员资格不足(37%)% ),人员不足(25%)。除了设计和施工过程中的问题外,其他三个方面都来自运维管理。可以看出,运维管理对于数据中心的高可靠性和高可用性非常重要。在数据中心的设计和建造过程中,设计验证和建造过程验证必不可少。同时,在生产前必须做好运维系统和人员培训。 2设计验证就形式而言,设计验证涉及聘请合格的设计验证单位和专家来审核数据中心的设计图。这是在施工之前必须经历的验证过程。在设计验证过程中,每个系统中的单点故障是最令人关注的。图3显示了单点故障的示例。该图显示,ATS双电源开关盒向四个精密空调提供放射性功率,双配电盒的电源来自冗余A / B电源。此时,双电源开关盒的ATS成为单点故障。一旦ATS发生故障或维修完毕,所有空调都将关闭电源。为了消除这一单点故障,设计验证应提供克服故障的解决方案。图4是克服图3中所示的单点故障的解决方案。3施工验证施工验证也称为测试验证。通过设计验证后,根据设计图纸完成数据中心的建设。下一项是施工验证。在设计验证过程中,有必要验证每个系统和每个子系统是否具有单个故障点,并提出解决方案以消除单个故障点。在施工验证阶段,有必要模拟每个系统和子系统中的任何单点故障,以验证保证系统是否可以保证数据中心的正常运行。同时还验证运维系统是否正常运行,以及运维管理人员的资历和人员数量是否符合要求。图5是施工验证的场景。施工验证是一个复杂且技术含量很高的阶段,包括对fai的验证吸引数据中心内各种系统的仿真和支持功能,例如电源和配电,制冷和监控。图6至11显示了部分施工验证(测试验证)场景。一些用户不了解施工验证的重要性,甚至不愿在施工验证上进行特殊投资。必须克服这种对理解的误解。 4O&M系统O&M包括三个方面:维护,维修和操作(见图12)。这里必须指出,有必要充分进行设计验证和施工验证两个阶段,否则遗留下来的隐患将造成很多困难,难以消除以后操作维护的风险。在构建运维系统时,必须参考国内外的先进实践,首先要明确运维管理的范围。从图13所示的数据中心运维管理系统可以看出,管理内容很多,但安全管理是重中之重,其中人身安全应排名第一,其次是设备安全。只有确保人员和设备的安全,运维系统的每个过程才能正常运行。实际上,在建立运维系统的过程中,很大一部分常见问题是人员。从调查结果来看,许多人认为运维人员非常重要,他们与运维经理的感觉相同。建立运维体系存在差距的原因与培训时间和培训方法有关。没有系统的培训,或者培训计划无法落实,这是造成缺陷的关键原因。为什么没有办法实施?主要原因是没有足够的运维人员,所以没有空闲时间参加培训。对于大多数数据中心来说,钱不是问题。安排足够的培训时间和有针对性的培训计划,这是管理层应注意的问题。图14显示了对操作和维护人员进行配置,资格鉴定和培训的重要性。 5风险评估风险评估,近两年这个话题已经被提及很多,主要来自金融业,对于金融业来说,数据中心非常重要。最近,金融行业发生了许多事件,因此中国银行业监督管理委员会提出了要求至少每年进行一次安全评估的要求。数据中心存在三个风险。一种是业务中断和数据丢失。前段时间也有数据丢失的情况,找不到客户数据。也有火灾,通常会产生更大的社会影响。因此,中国银行业监督管理委员会每年进行两次安全评估,现在许多银行基本上都在一两年内进行安全评估。三是国家高度重视信息安全。托管,由于越来越多的客户现在需要托管数据中心,因此在这方面也需要进行现场评估。 ,包括我们正在运行的计算机室,如何评估它也是非常重要的事情。进行风险评估时,需要进行360度评估。从基础结构分析的角度来看,在查看计算机室时,必须首先查看体系结构。可能发生的潜在点在哪里?另外,在评估设施和设备时,请到现场查看周围是否有危险,包括建筑物和设备的状况。正常运行时间在2013年给出了救援模型(SavesbyCategory),那么什么是救援?发生的事件并未演变为故障事故。从事故到发生故障事故期间,必须采取措施防止其成为故障事故。 ,此期间为保存。异常情况定义为异常事件,故障事故是应用程序中断。根据正常运行时间的统计,如果使用双电源,则可以节省9%的事故,ipment冗余可以节省9%的事件,这表明50%的事件是通过基础结构保存的,以防止它们成为故障事故。另外50%的事故必须通过运维人员(29%),预防性维护(19%)和预测性维护(2%)的干预来挽救,以免成为故障事故。图15显示了Uptime在2013年提供的救援模型。此外,还需要对机房环境和机房设施进行风险评估。图16和图17分别显示了某些计算机机房的环境风险和某些计算机机房设施的风险。 6结束语上述设计验证,施工验证,运行维护系统的建立以及风险评估是中科先洛的服务项目。近年来,它已经为京东和万达等知名客户提供服务,并且还对华为的机房进行了验证测试。主要用于正常运行时间认证,稍后将需要LeadLEED认证。不久前,微软宣布,其数据中心必须通过LeadLEED认证。每个人都知道正常运行时间是可用性的标准。在不久的将来,leadLEED认证将获得更多认可。关于作者程晓丹,中科先洛咨询服务有限公司董事长,中国互联网协会数据中心运营工作组副组长。