信息通信电子报

2021.05

多重制约也无法阻挡DCIM助力数据中心实现真正的智能化管理

<机房360>

2020年,是台达在数据中心基础设施领域建树颇丰的一年,尤其是DCIM管理系统解决方案在功能运用方面进行了大幅提升,给数据中心未来智能化管理带来了更多的动力和契机。台达-中达电通关键基础架构解决方案产品处DCIM产品经理蔡盛在接受机房360网的采访时对制约其发展的因素进行了全面分析,并对数据中心未来智能化管理提出了新的设想。

多重制约下DCIM依然值得拥有

制约数据中心使用DCIM平台的因素有很多。首先,人是一个主要的因素。根据CDCC数据中心行业趋势调查的结果来看,数据中心的运维人才是稀缺的,而且较容易出现断层。这是因为数据中心的运维人员的技术和能力的培养需要一个漫长的时间,同时也需要更为漫长的时间来积累和沉淀经验。目前数据中心运维团队的现状是有经验的运维人员年纪偏大,新入行的运维人员非常年轻,但又看不到职业前景,因此人员流失非常频繁。一旦人员频繁异动,那么整个数据中心运维管理的技能和经验就难以传承。就目前的情况来看,一个数据中心有足够的技能娴熟和负责的运维人员来支撑运维工作已经是巨大的难题了。也因此,数据中心人才培养和续存的问题是制约DCIM应用的一个关键因素。


图 台达DCIM包含了三大功能模块:资产管理、容量管理和能耗管理

其次,就是费用的问题。DCIM不像硬件设备属于一次性的工程,它是一个集成的系统,整个部署的周期会很长,所以在前期设计的阶段并不能一次规划好整个数据中心的管理程度,也因此就不能确定未来将会使用到的具体的功能模组。所以,这会影响到前期投入的预算和后期运维的成本。以一个千柜的数据中心来看,不管是普通的监控系统更换,还是常规的运维管理功能模组,甚至是运维系统的优化,三者的投入成本预算都要根据最终数据中心的实际体制规模来核算,这就需要结合规划设计、客户需求和运维三个方面来交叉考量。但实际上,规划设计的时候可能只考虑设计前景,客户又想把预算压低,而运维希望使用DCIM功能的时候矛盾点就突出了。

另外,最主要的一点是落地难。DCIM在整个数据中心中真正落地一个完整的解决方案特别少。更多的是用户只选择其中一个或几个功能模组来使用。这主要是因为从设计到实施的过程中,会有很多未知的情况与实际发生冲突。这些冲突可能会涉及到总包或者厂商或者用户,甚至会涉及到运维人员。在这种情况下,没人能够明确具体需求,因此要让一套完整的DCIM系统全面落地的阻碍可想而知。

最后一个制约因素就是数据中心运维工作的本身。从一个长期的角度来看,运维是一个相对比较枯燥的工作。因为要保证数据中心的安全和稳定运行,巡检和检验就成了运维人员的日常工作最常做的事情,也是做的最多的事情。一个运维人员,需要日复一日、年复一年的在做着重复枯燥的巡检和检验工作,成千上万字的抄表和记录数据等等,但要从庞大的数据记录中发现隐患其实并不是所有人都可以胜任的。如果有比较适合运维人员的辅助工具,让运维人员可以摆脱机械性的重复工作,让工作变得简单有效,会使运维人员更加主动负责的去做好数据中心正常运行的保障工作。而这也就是DCIM的最主要的功能之一,即可视化运维。DCIM的可视化并不是传统意义上单一设备或者告警信息的可视化,它对于运维团队而言是整个数据中心的可视化,也是运维人员极其缺少的一个高效的运维工具。

随着目前数据中心的规模越来越大,发展越来越快,从数据中心的安全角度出发,最重要的还是要保障系统和设备的正常运行。包括,消防系统是否正常完好,机房内部环境是否清洁,供应商的联系是否顺畅,这些运维人员最基本的工作流程都可以通过DCIM的自动化管理来实现,甚至还可以扩展到资产的管理、供应商的管理、备品备件的管理。所有工作流程都在线上操作,运维人员再也无需进行枯燥乏味的手工操作,工作效率也大大的得到了提升。

实现真正意义上的智能化管理还需要多方协作
要做到真正的智能化管理,首先平台不能单一。对于数据中心而言,平台必须是多系统、多资源、多功能的集合多场景的应用。因此台达的DCIM平台更多的是考虑与数据中心现有系统的一个结合而不是替代。以已经建成的信息为基础,再将各子系统的的数据导入进去做一个完整的建模,这样从内部到外部数据打通形成一个可视化的结构。

这种可视化结构,不单单是传统的3D视图。它不仅可以展示机房内部,而是从整个园区宏观的来展示。当设备出现异常或者数据异常的时候,则可以通过并用的系统跳转到发生问题的设备点。这对于数据中心运维人员经验不足来说操作和使用也会更加便捷。

另外,就是AI场景的应用。在未来可能会有更多的数据分析和建模的工作,AI的加入可以摆脱传统的人工判断,得出结果会更加的快速和准确。而且AI的加入,对于运维人员的培训也起到了积极的作用。通过AI自动化和智能化的场景可以对运维人员进行模拟训练。运维人员在AI营造的模拟数据中心现状的虚拟的环境中按照运维流程进行各种运维操作训练,即使操作失误也不会影响数据中心的正常运行。AI配有的知识库还可以在培训中告知培训人员该如何有效的处理故障。培训人员还可以在AI的知识库中进行搜索,根据搜索结果进行反复的实操,直到充分掌握技能要点。

当下,已经比较成熟的云平台和云部署,也是智能化管理不可或缺的一部分。数据中心规模越来越大,物理机的成本也会越来越高,而通过云,可以把整个服务最大化,不久的将来,数据中心的一些运维工作甚至可以交付给云代理商来进行维护。在系统可用及服务质量提升的同时,也大幅降低运行与运营的成本。

最后,就是以机器和系统为主,以人为辅的一种平衡状态。在这种人机平衡状态下,通过大数据的分析和智能机器人巡检,使得运维人员逐渐摆脱传统的手工作业。各种运维工作通过办公自动化的模式形成了一个规范流程和制度。这样,才实现了真正的意义上的智能化管理。