深度好文 | 数据中心的智能化运维

随着大数据、云计算、物联网、边缘计算、5g等新兴技术的兴起与成熟,对于数据中心的需求也越加强劲。未来的数据中心由于新技术的应用,引起市场需求的变化, 业务模式需求也随着变化,将面临着两极分化的建设模式,即【边缘计算】模块化数据中心与【核心骨干算力】超大型数据中心产业园的建设。对于每一个数据中心的管理者,拥有一套适合企业发展的DCIM工具,是一件非常急迫的事情,也是一件需要长期投入建设的事情。

大家或许会认为我们今天要谈的是DCIM,然而个人认为DCIM已经被数据中心的业主抛弃,失去存在的价值。

当下最该思考的一个问题:如何打造一个辅助数据中心全面管理数字化的综合应用平台呢?

数据中心管理辅助平台:

DCAP

Datacenter Assistant Platform

为写文需求暂且这么定义,大家仁者见仁,智者见智。

当下的DCIM犹如“鸡肋”,为何这么说?

当下的DCIM犹如“鸡肋”,为何这么说?

01

认知

DCIM的含义:

DCIM是一个平台化的软件工具,主要是管理IT(基础)设施层面,与场地基础设施层面(场地层面),通过工单系统,贯通整个IT运维(包含监控)流程与场地基础设施运维(包含监控)流程。

451观点:

数据中心基础设施系统通过持续收集和管理数据中心的资产、资源以及各种设备的运行状态,然后通过分析、整合提炼成有用的数据,从而帮助数据中心管理者管理数据中心并优化性能。

高德纳观点:

数据中心基础设施管理(DCIM)工具监控、管理和控制数据中心所有IT相关设备(比如服务器、存储和交换机)和关键基础设施相关设备(比如PDU和精密空调)的使用情况以及能耗水平。

02

“鸡肋”的根源

市场主流销售的DCIM产品、厂商介绍的解决方案,大多数都是解决方案产品化产物,对于很多客户真实需求满足性有差距,都需要不同程度的二次开发。

而且多数的功能在应用体验和实际操作中很不理想,过于繁杂和炫酷,无实际应用功能,呈现大量的无价值数据给运维管理人员。即使和供货商签订了关于二次开发的相关服务合同,但是供应商的项目实施能力和业主方之间的不明确的功能需求难以平衡,导致矛盾不断恶化。

同时产品是有利润空间的,但是供应商二次开发存在需求的评估、技术难点的分析、产品的理解、业务应用的理解等不同方面的影响,造成成本很难评估,也造成厂商利润很难衡量,存在很大的不确定性。

最终的结果就不言而喻了,这也是现在供应商的难题,同时也是数据中心运维管理的痛点,花钱买了一个冤大头——

【集团公司高层管理因为有了所谓的管理工具,而不断的要求压缩人员编制和成本】

03

离开价值区,失去意义

六宗罪

01

功能不全,定义不符

缺乏IT管理,运维采用表格线下手工录入;缺乏管理流程功能

02

喧宾夺主,过渡炫酷

长期运维值班,ECC强光和炫酷的界面易导致疲劳;

03

数据量大,多而无用

单台设备数据上行大,缺乏有效的信息;数据未进行有效的分层应用;

04

3D空间管理,应用和需求不符

3D模型缺乏基础设施唯一标牌信息,无法实施自动化基础设施资产盘点,仅仅是空间呈现功能;

05

数据周期不同步,失去时效性

电力后平台和BA系统,以及DCIM不同步,事件完整追溯性缺失,故障根本原因分析缺乏暂态分析记录;

06

孤岛运行,缺乏管理要素

厂商的市场方案型产品,缺乏对外管理流程接口功能,失去辅助数据中心运维管理体系和个性化表格的需求功能;

与其二次开发,不如重新定义需求

与其二次开发,不如重新定义需求

回归出生,定义需求

关于数据中心管理辅助平台:DCAP【datacenter assistant platform】的看法是:优先满足运维管理的需求,运维管理为SLA服务质量服务,所有的基础设施型的功能和投入都应为数据中心的安全可靠持续运营的目标服务。

【数据中心运维管理工作】

基本工作职能和目标描述

根据公司战略发展目标和年度规划目标,负责完善和优化设施管理部门的制度和工作流程;

根据公司发展战略,制定设施管理部门的年度工作计划并分解执行;

制定IDC动力设施维护操作手册、应急管理流程和应急操作预案等;

负责IDC动力设施日常维护和管理工作,调整机房动力设施的安全控制,保障IDC 运行环境畅顺;

制定动力设备规划方案、设备选型、调研、验收、安装、调试等工作;

监测动力设备状态,实行故障诊断技术,在正常运行的基础上,降低动力设备的维修成本;

建立健全IDC动力设施的数据档案,包括设备运行数据、设备维修数据、设备检修情况等,并做整理及归档工作;

动力设备事故和故障的调查分析,形成报告并提出相应的改进措施和处理意见;

在整个数据中心运维管理工作中,软件和物联网技术成为有效进行管理的基础型的硬件投资,我国数据中心虽然近几年发展迅猛,但是技术管理人员缺乏和优质的有经验的管理人员都十分匮乏。

在我们现在大多数数据中心运维管理中都存在着一个严重的管理问题:纸质化的管理流程都还没有进行有效的闭环管理验证,就开始盲目的追求智能化运维的实施,导致目的和流程无非有效的提出和实施。

无论是前序的DCIM二次开发还是数据中心管理辅助平台DCAP,在一个项目进行应用实施的前提就是运维管理体系和流程的置入,并结合现场项目的基本特性进行有效的配合和部署工作,这些基础条件的具备是部署成功的必要条件。

断骨重塑,简化优化

DCIM的架构缺陷主要有:数据未进行有效的分层和清洗,无数据中心单个项目的数据架构关联关系,缺乏有效的结论型信息。

图片[1]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

DCIM现有的功能只是数据中心管理辅助平台DCAP的底层数据抓起功能,要形成数据中心管理辅助平台DCAP的功能,需要对数据库进行有效的备份,于此同时通过防火墙和加密网络进行对接管理功能模块。

图片[2]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

可扩展的应用层是指由相对独立的基于平台的功能模块集合,他们可能运行在平台之上也可能以微服务的形式存在,模块本身也可能由模块组成,多个或独立的模块组成产品的功能,松耦合的模块设计是产品灵活性、可扩展性的重要依托,这样客户在新增功能,变更功能都不会对平台和其他功能带来影响,对于厂商,能为不同的客户快速部署具有不同功能的产品。

数据中心管理辅助平台DCAP的功能必须具备的有:外网登陆权限管理,市场CRM(客户关系管理)、客户响应服务管理、运营财务管理、电⼒监控、BA运行策略管理、IT资源使⽤、⼯作负载管理、维护管理、⼯单系统、财务规划、容量规划。

自动排单,通知到负责人

当基础设施异常报故障时,应该自动报告,并主动通知值班人员进行复查,确保故障的第一值班人员进行确认。当确认故障后,进行排单下发工作,由于排单后工单需要进行纸质操作记录流程,移动终端设备能够深入管理实施的细节,并记录和及时的信息传递。

图片[3]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

移动终端对现场实际复核工作进行拍照留底,从而达到各个实施环节和步骤有据可查,数据和操作确认人员信息保持同步,确保数据中心整个运维管理工作制度和体系实施到位,实现管理人员的信息同步,落实到细节管控中去。

图片[4]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

互联网思维,设施运维社区

身处互联网行业,然而数据中心管理PAAS并未继承互联网的开放和社区开发文化,通过社区文化,将数据中心基础设施运维管理的从业人员聚集在一起,通过开放的互联网环境来实现需求和开发的互动过程,减少不合应用场景的开放需求,提高应用的实际落地性。

综述

随着更多的⽹络和计算朝向虚拟化前进以及更加灵活弹性,以实现最⼤的灵活性和效率。数据中心管理辅助平台DCAP系统是一套集“集中化运维、一体化管理、智能化分析、流程化控制”等功能于一体的数据中心管理支撑系统,可最大程度降低人工干预、排除人为失误。

智能分析预测将故障解决在发生之前,在安全、稳定的前提下,减少运维人员和维护成本,优化资源管理,提升运维效率,为企业带来大幅的效率提升。底层数据中⼼的物理资源(电⼒、冷却、空间)的供应也必须与IT需求和资源紧密结合,并试着实现相应的⾃动化,进一步实现智能化运维。

图片[5]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

作者介绍:

图片[6]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

图片[7]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

李建利

广东优世联合控股集团股份有限公司

数据中心高级运维经理

武汉大学硕士,IDC资深电气工程师,具有丰富的行业经验和大型IDC项目能源架构设计能力,参与多个大型T3/T4等级IDC项目全生命周期工作,并担任重要角色;DKV(DeepKnowledge Volunteer)计划精英成员UptimeInstitute认证AOS专家。

图片[8]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

图片[9]-深度好文 | 数据中心的智能化运维-JieYingAI捷鹰AI

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享