数据中心DCIM技术白皮书.pdf
- 文档编号:18633521
- 上传时间:2023-08-23
- 格式:PDF
- 页数:76
- 大小:2.58MB
数据中心DCIM技术白皮书.pdf
《数据中心DCIM技术白皮书.pdf》由会员分享,可在线阅读,更多相关《数据中心DCIM技术白皮书.pdf(76页珍藏版)》请在冰点文库上搜索。
数据中心DCIM技术白皮书数据中心基础设施管理白皮书.11.前言.41.1DCIM概述.41.2DCIM出现的背景.41.3DCIM工具的管理价值.61.4DCIM和动力环境监控系统的关系.82.DCIM管理概述.92.1DCIM的管理框架.92.2基础设施全生命周期管理.132.3管理成熟度模型.133.数据中心的资产管理.163.1数据中心资产管理需求.163.2数据中心资产管理的目标.203.3数据中心资产管理系统的应用原则.223.4数据中心资产管理系统功能描述.234.数据中心的容量管理.264.1数据中心容量管理的必要性.264.2传统部署方法的局限.274.3DCIM容量管理的几个维度.284.5DCIM系统IT设备部署原则.295.数据中心能源管理.315.1能源管理意义.315.2能源管理的定义及目标.325.3能耗的组成.325.4能效的指标.345.5能效指标的测量.365.6能效管理系统功能.386数据中心的场地设施管理.406.1场地设施管理的意义.406.2场地设施管理的功能与特点.436.3场地设施管理的范围.456.3.1电力监控系统.466.3.2机械监控系统.506.3.3安防与火警监控系统.547.IT设备连接管理.567.1IT设备物理连接管理.567.2IT设备的访问与控制.597.2.1IT设备的访问方式.597.2.2IT设备访问及管理的应用原则.608.变更管理.619.DCIM系统的构建.649.1采用大数据技术构建DCIM.649.2复杂事件处理.659.3分布式数据采集.669.4DCIM数据接口.679.5报表服务.6810.DCIM发展及趋势.7010.1未来基于云服务的DCIM平台.7010.2远程运维管理.7010.3支持多租户服务.71附录.721引用术语.722DCIM评估工具.723参考文献.761.1.1.1.前言前言1.1DCIM1.1DCIM1.1DCIM1.1DCIM概述概述数据中心基础设施管理DCIM(DataCenterInfrastructureManagement数据中心基础设施管理)是近2年在数据中心运营管理领域兴起的一个热点。
DCIM概念起源于国外,不同的机构对DCIM也有不同的定义,但有交集的思想是DCIM工具可以架起一座沟通关键基础设施和IT设备之前的桥梁,从而帮助运营者管理数据中心。
Gartner对DCIM的定义是:
Datacenterinfrastructuremanagement(DCIM)toolsmonitor,measure,manageand/orcontroldatacenterutilizationandenergyconsumptionofallIT-relatedequipment(suchasservers,storageandnetworkswitches)andfacilityinfrastructurecomponents(suchaspowerdistributionunitsPDUsandcomputerroomairconditionersCRACs).数据中心基础设施管理(DCIM)工具监控、管理和控制数据中心所有IT相关设备(比如服务器、存储和交换机)和基础设施相关设备(比如PDU和精密空调)的使用情况以及能耗水平。
451Group对DCIM的定义是:
Adatacenterinfrastructuremanagementsystemcollectsandmanagesinformationaboutadatacentersassets,resourceuseandoperationalstatus.Thisinformationisthendistributed,integrated,analyzedandappliedinwaysthathelpmanagersmeetbusinessandservice-orientedgoalsandoptimizethedatacentersperformance.数据中心基础设施系统通过持续收集和管理数据中心的资产、资源以及各种设备的运行状态,然后通过分析、整合提炼成有用的数据,从而帮助数据中心管理者管理数据中心并优化性能。
综上所见,采用统一的平台管理场地基础设施如UPS、空调以及IT基础架构如服务器,并通过数据的分析和聚合,最大化数据中心的运营效率,提高可靠性是DCIM系统产生的根源及目的。
然而,国内数据中心的成熟度和运营管理水平还国外还是有一定的差距,国外对新技术(特别是管理技术)的定义和范畴并不一定完全适合国内数据中心的管理现状和具体国情。
因此,在本白皮书中,DCIM更多的是代表数据中心一种先进的全面管理方式和工具。
在立足于阐述DCIM以及和数据中心运维管理相关的模型及概念的基础上,帮助数据中心的管理者和运维人员更好的选择适用于数据中心管理的工具和方法。
1.2DCIM1.2DCIM1.2DCIM1.2DCIM出现的背景出现的背景新一代数据中心在架构设计上更加的弹性化。
为了满足业务可持续发展的要求,降低TCO,提高业务灵活性,当前的数据中心采用了更多如虚拟化、模块化等技术,使得UPS和空调等基础设施和服务器、存储、网络等IT基础架构之间的匹配更加的困难,如图1所示。
Cloud/VirtualCloud/VirtualCloud/VirtualCloud/Virtual图1-1传统的数据中心在建设完成后,往往UPS的容量以及空调的制冷量很难再做出改变和调整,而且一台服务器的应用数量通常也是固定的,因此这台服务器的功耗也不会有大的变动,所以2者之间的匹配相对比较容易。
而在云时代,虚拟化使得负载可以在服务器之间动态的迁移,应用访问也存在爆发性访问的特点,IT设备的功耗会波动较大且比较频繁,随之而来的是对供电和制冷容量的动态需求。
特别大量应用的刀片服务器,使得单机柜的功率密度轻松突破10KW,如果处理不好,就会造成局部过热,使得服务器宕机。
因此对数据中心管理者而言,我们更需要有一个统一平台能够同时管理到IT和基础设施,实时监控设备的容量、功耗、空间、承重等信息,从而防患于未然,提高数据中心可靠性。
传统运维方式存在诸多问题传统运维方式存在诸多问题在数据中心业务和设施在快速发展的同时,我们运维方式和工具却没有跟上步伐。
根据CA和IDC联合推出的报告【2】,市面上84%的数据中心都面临在制冷、供电、空间和承重方面的问题,带来的问题包括延长应用上线时间,增加OPEX甚至是中断提供服务。
特别是对提供云服务的Co-location客户来讲,数据中心是他们的利润中心,是赚钱的工具,如何通过运维在不降低数据中心可靠性的同时,最大化效率是他们最关心的问题。
但是传统的运维方式和工具往往很难满足这类客户的需要。
ITITITIT和和FacilityFacilityFacilityFacility分开管理分开管理根据IDC的报告,有58%的数据中心将IT设备和Facility设备的管理分成了不同的部门。
这种现象在国内的3大电信运营商身上更加普遍。
这种人为的组织架构划分虽然在一定程度上有利于人员管理和权责划分,但是增加了部门之间的沟通成本,降低了数据中心运维的效率,甚至提高了数据中心发生事故的风险。
比如这种隔离造成了很难对业务发展需求进行准确预测,甚至如果Facility部门在对设备进行维护时没有及时通知到IT部门,则会对业务应用造成影响。
IT管理部门Facility管理部图1-2使用离散的数据中心管理工具使用离散的数据中心管理工具数据中心的管理人员往往采用一系列离散的,不专业的工具对数据中心进行维护。
比如采用Excel进行资产和连接关系的管理,利用Visio或者AutoCAD进行数据中心的可视化建模,了解设备的存放位置。
再利用动环,甚至是一些免费的,厂家赠送的工具进行设备的监控。
这种管理方式的优点是获取方式简单,成本相对低廉,但是却带来了多方面的问题。
首先对数据中心管理者而言,没有一个统一的视图获得所需要的信息,维护多个离散的工具也提高了管理和拥有成本;其次不同系统之间的数据难以关联和共享,在制作报表和业务预测的时候尤其困难;最后工具的不专业造成对数据中心数据的维护非常痛苦,需要花费大量的时间去更新数据,保持同步,甚至新老数据彼此发生冲突。
因此DCIM管理工具在现代数据中心的应用显得迫切和重要。
数据中心运营团队的绩效评估数据中心运营团队的绩效评估传统数据中心管理团队在整体企业中是成本中心,每年的通过申请维护经费或新增维护系统等方式进行管理方法及工具的优化。
数据中心管理的优劣在传统意识中,对于整个企业核心业务来说,属于间接影响关系。
因此在企业中传统的数据中心的运维与管理团队的价值远低于其他业务团队。
但是随着数据中心技术与职能发展的提速,数据中心所承载业务的关键度发生了巨大变化,传统概念中CAPEX与OPEX的界定发生了很大改变,以往重建设轻管理的运营模式也在往管理引导建设的思路改变。
因此如何保证数据中心的高可用、低延时、低成本、低故障的稳定运行,直接关系到业务停顿次数与时间,如果换算成成本其金额数量巨大。
因此对于数据中心运维管理团队来说,MTFB已成为关键绩效考核指标,并关系着整个企业业务的持续稳定运行。
因此通过更好的工具、更优秀的管理方法论以及更加有据可循流程进行疏导,将实现数据中心管理团队绩效的达标。
不仅将管理团队在整个企业中的重要度得到了提升,对于那些默默无闻的工作者们进行充分的肯定,同时还将企业关键业务的持续、稳定运营得到了有效保障。
1.3DCIM1.3DCIM1.3DCIM1.3DCIM工具的管理价值工具的管理价值目前市场上推出DCIM解决方案套件的厂家在软件架构上均是采用模块化设计,客户可以根据自己的需求选择适合自己软件功能模块和license。
一个好的DCIM解决方案必须要能够在OPEX,CAPEX以及人员和流程管理方面给客户带来价值。
OPEXOPEXOPEXOPEX数据中心已经是一个高能耗的行业,电费的支出在运维费用中占用了相当大的比例。
因此DCIM系统必须能够监控数据中心的PUE等关键能耗指标,同时能够实时的查看IT设备和基础设施设备的能耗。
未来DCIM还应该能够对水使用效率WUE和碳使用效率CUE等进行监控。
其次由于DCIM系统能够通过对服务器有功功率和CPU占用等信息的采集,可以发现在数据中心空载和低负载的服务器,这在一些大型数据中心常有发生。
从而对这部分服务器进行整合或者下架,提高设备利用率,降低数据中心功耗。
同时通过结合IT设备的生命周期和服务器的能耗信息,可以淘汰一些老旧的,计算能力弱却又能耗较高的服务器,进一步节能增效。
最后,DCIM解决方案继承并增强了传统动力环境监控系统的功能,通过实时监控IT设备和基础设施设备,当在夜晚或者虚拟化迁移的过程中,对一些能耗降低的区域,可以考虑对该区域的模块化UPS进行休眠,以及对空调系统的风机进行调速,甚至关闭部分空调终端,来节约能源。
CAPEXCAPEXCAPEXCAPEX对于数据中心而言,每1U位都是宝贵的资源。
尽可能提高设备的利用率,延长数据中心的寿命,就能提高投资回报率,增加Revenue。
DCIM可以对数据中心进行可视化建模,对数据中心的电量、制冷、空间、承重等容量进行追踪,并对供电和网络等连接关系进行管理,如图3。
由于数据中心在设计时都层层考虑余量以提高可靠性,再加上服务器运行并不能达到它设计的铭牌功耗,因此往往每个机架的容量并不能够被充分的利用。
DCIM提供的这种实时的精细化的管理功能可是使得用户摆脱过去手摸、眼看等粗放的判断方式,实时了解每个机架和整个数据中心的资源消耗情况,提高资产的利用率,延长数据中心的寿命,节约投资。
图1-3人员及流程人员及流程人员和流程也是数据中心运维过程中需要考虑的重要因素之一,UPTIME的调查显示数据中心的安全事故中,有70%都属于人为因素【3】。
DCIM提供了对数据中心变更和流程管理的平台,在实施数据中心变更时,客户可以在DCIM工具中对变更中涉及到的每一步人员和流程进行管理和审批。
比如在上架服务器时,DCIM可以利用其自身采集到的数据对供电、制冷、空间、网络、承重等资源进行步步验证和审批,并在实施前进行模拟操作,从而提高变更的可靠性,减少数据中心的实施错误。
另外好的DCIM平台还能提供API和ITSM的人员和流程管理相结合,最大化数据中心管理的效率。
从长远来看,为了提高人员和流程的效率。
DCIM平台将会和KVM、SP以及串口管理等数据中心远程管控的平台相结合。
比如当DCIM平台监测到某台服务器存在异常,可以直接在DCIM平台打开KVM的session,从而对该服务器进行操作。
这样会大幅减少人员在不同平台之间切换,以及设备定位的时间,进一步提高人员和流程的效率。
1.41.41.41.4DCIMDCIMDCIMDCIM和动力环境监控系统的关系和动力环境监控系统的关系由于机房监控系统在国内数据中心得到广泛应用,而且在动力设备和环境传感监测和控制范畴与DCIM的实时监控功能有交集部分,因此很多用户会混淆DCIM和机房监控系统概念。
实际上DCIM不仅仅是监控系统的升级和增强版,DCIM概念的兴起是为了解决关键动力设备和IT关键基础设施一体化管理,统一管理平台,实现数据中心基础设施的全生命周期管理和动态优化,以满足数据中心运维服务等级协议。
从运营管理的角度来看,DCIM与动环最大的区别之一是数据的关联与分析的能力。
动环只是关注对信号的告警,比如出现故障后如何能及时、有效又能很好的对告警进行收敛。
而DCIM更加关注运维的业务逻辑,根据收集的数据对于数据中心内基础设施运行的影响,提供从规划、调优、预测和变更等多个维度的数据支撑,从而为实现数据中心综合管理与运营奠定数据基础。
图1-4DCIM,BMS和ITSM管理范畴在国外的数据中心,普遍的做法是用BMS(楼宇管理系统)来达到动力环境监控的功能。
通常还集成门禁控制,视频、照明控制等子系统。
DCIM与BMS在关键基础设施监控部分有重合部分,但是DCIM除开对单体设备监控之外更重视对制冷和供配电提供整体分析和全面视图呈现。
DCIM与ITSM(IT服务管理)在IT告警和工作流变更方面有交叠,但是可以明确ITSM侧重于逻辑基础设施(例如操作系统、应用和网络等)管理,而DCIM偏重于物理基础设施管理,并引入基础设施全生命周期管理。
DCIM也提供传统BMS和ITSM所未涉及的数据中心平面图和资产容量管理,无缝连接动力关键设备和IT基础设施,整合数据中心存在的多个分离子系统,统一管理平台提供基于实时数据的基础设施全面可视性管理。
2.2.2.2.DCIMDCIMDCIMDCIM管理概述管理概述DCIM数据中心基础设施管理是通过一整套包含硬件设施、传感器和特定软件的管理平台与工具,来实现覆盖数据中心IT关键设备(服务器、存储、网络、虚拟机)和场地基础设施(配电、制冷、布线、机柜)等所有关联系统的对象(安全、管理、环境)进行容量规划、集中监控、准确处置、智能管理、预测模型、成本控制等的管理功能,DCIM是信息技术和设施管理的综合集成。
主要的特性是将数据中心IT关键设备和基础设施所有关联系统的信息与管理进行整合,DCIM工具和流程将改变原有数据中心“环境与设备监控的管理”和“IT设备系统与网络的管理”两者间管理架构和管理流程相分离的状态,成为数据中心基础设施管理能够包含IT系统作为管理驱动的主流趋势。
一个有效的DCIM系统将为数据中心提供对相互依存的系统进行资产的实时监控和统一的管理平台,DCIM工具将提供详细的监测和测量数据中心的性能、利用率和能耗,支持更高效、成本效益和绿色环保。
2.12.12.12.1DCIMDCIMDCIMDCIM的管理的管理框架框架DCIM数据中心基础设施管理(平台与工具)的出现与发展,促成了数据中心中信息技术和设施管理的综合集成,无论其管理的形式、技术的方法还是管理的范畴、技术的应用,都发生实质性的变化。
对数据中心有效的综合管理具有积极的作用。
成为数据中心管理的主流趋势。
一个有效的DCIM平台将使数据中心基础设施管理达到的主要目标是:
保障可用性计划及降低风险提高资产和基础设施的利用率综合降低能源消耗和运维成本流程化管理满足规定的服务水平实时自动提供管理决策信息提高数据中心效率和效益构建针对数据中心内基础设施的分析、比对与挖掘的数据支撑平台基础设施IT设施机房设施相关楼宇设施场地设施服务器、存储设备、网络与信息安全设备供配电、空调环境、安全防护.高压设备、冷水机组、消防设备.基础设施监控管理DCIM运维管理团队数据中心基础设施监控管理对象以下分别从逻辑框架、物理框架、功能框架的形式进行阐述。
DCIM的逻辑框架由DCIM涉及的三个专业领域组成,即:
1、基于“数据中心监控系统”的物理基础设施数据采集及分析;2、基于“数据中心基础设施管理”的综合功能模块,资源、资产、容量、连接、性能和可视化管理工具;3、基于“数据中心运维管理”的运维业务管理的流程与规则。
注:
数据中心监控系统参见CDCC数据中心监控系统技术白皮书。
数据中心运维管理参见CDCC数据中心运维管理技术白皮书。
图:
图:
2.1-12.1-12.1-12.1-1DCIMDCIMDCIMDCIM逻辑框架逻辑框架DCIM的物理框架由按DCIM涉及的主要类别和主要作用、功能、内容或对象进行划分。
将DCIM的物理框架划分为5个层次。
即:
第1层为基础设施现场层;第2层为网络传输控制层;第3层为管理中心设备层;第4层为综合管理软件层;第5层为人力资源文档层。
图:
图:
2.1-22.1-22.1-22.1-2DCIMDCIMDCIMDCIM物理框架物理框架DCIM功能框架是数据中心基础设施管理核心功能的组成与体现,也是构建与架设各功能模块之间关联性和依存性的特征表现。
DCIM系统框架按照核心功能模块的维度可分为检测管理、IT管理、资产管理、容量管理、能效管理、制冷管理、连接管理、变更管理、流程管理等、现场管理等。
图:
图:
2.1-32.1-32.1-32.1-3DCIMDCIMDCIMDCIM系统框架(基于核心功能模块维度的系统框架(基于核心功能模块维度的DCIMDCIMDCIMDCIM模型)模型)一个有效的DCIM平台将提供一个相互依存的系统和资产的实时监控和管理的统一平台,提供收集实时数据、资产可视化、建立虚拟模型、实行变更控制、进行全程管理、呈现运营报告、动态预测分析等一系列的保障业务和运营效益的措施。
这些功能包括:
全面地、实时地采集监测真实运行状态数据对IT设备与基础设施的环境监控与报告识别IT设备和基础设施之间的相互依存关系数据中心资源与资产的配置与变更管理可视化的物理和虚拟设备设施管理基于模型的自动化的事件应对与处置现时的与历史的数据资料的可管理性能源的实时测量、能力模型与优化配置应对动态的IT设备与虚拟设备的变化适宜的资产、成本、效率的预测分析与决策统一的操作平台、工具和管理界面表:
2.1-3DCIM系统框架与核心功能模块功能模块主要对象主要功能备注资产管理设施、设备、器材等分类、标识、建库、定位、跟踪、统计、分析、部署、变更、财务容量管理空间、机柜、电力、冷却、网络、载重等标识、规划、存量、统计、分析、预测、模拟、部署、变更能效管理水、电、气等算法、计量、指标、利用率、节能、评价、计费制冷管理温湿度、气流、空调、群控等设定、优化、分析、模拟、措施、调节、节能、评价连接管理端口、线缆、路由、标识等标识、定位、连接、跟踪、统计、分析、模拟、部署、变更变更管理对象、类型、方案、档案准备、配置、预案、模拟、评估、部署、组织、执行、备案流程管理人力资源、运维服务基于ITSM/ITIL及DCML的体系、资源、服务、支持、交付、信息、厂商等管理;手册、指南、规程、参考等文档;信息库、数据库、规则库、预案库、知识库等信息与工具库2.22.22.22.2基础设施全生命周期管理基础设施全生命周期管理数据中心基础设施的全生命周期管理(TheLifecycleManagement)是指从数据中心规划、设计、建设到运维阶段过程中,基础设施从初期的系统设计、配置、安装、调试、集成到后期数据中心运维阶段的实际使用、调整、扩充、升级直至停用“报废”的全过程、全周期的管理。
在数据中心的设计和建设时期就要开展对DCIM系统的需求分析及规划设计。
并落实现场安装、软件部署、集成调试、功能验收等阶段与过程的管理。
在数据中心后期运维过程中,DCIM系统的实际使用、调整、变更、扩充、升级直至停用或报废等过程更是完整的贯穿了数据中心基础设施的整个生命周期。
所以,要从业务目标出发,从长期运维的角度来考虑整个DCIM系统的设计和定位。
管理内容与对象基础设施与DCIM系统的需求分析、设计配置、选型采购、现场安装、软件部署、集成调试、功能验收。
基础设施与DCIM系统的使用、调整、变更、扩充、升级、停用或报废。
阶段规划设计建设运维全周期初期后期2.32.32.32.3管理成熟度模型管理成熟度模型DCIM管理成熟度(DCIMMaturityModel)是针对数据中心基础设施管理所达到的某种程度的表征。
主要依据数据中心基础设施管理实际的硬件与软件的配置、管理内容与对象、管理平台与工具、运行维护水平等多方面的因素来评价DCIM管理成熟度,分为基本级、被动级、主动级、优化级、自适应级5个等级。
图:
图:
2.32.32.32.3DCIMDCIMDCIMDCIM管理成熟度模型示意管理成熟度模型示意1111级:
基本级级:
基本级(Basic)(Basic)(Basic)(Basic)基本的设备监控手册;简单的故障报警;没有系统集成。
属于低效率的运维管理。
没有标准的变更过程没有可预测性缺少文档化不设访问权限停电等状况经常出现2222级:
被动级级:
被动级(Reactive)(Reactive)(Reactive)(Reactive)配有环境与设备监控软件;能基于需求的简单调节控制(如制冷)。
属于低效率的运维管理。
依赖运维人员的个人行为变更过程的差错率高零散的文档化配有事故处置措施有限的管理监督3333级:
主动级级:
主动级(Proactive)(Proactive)(Proactive)(Proactive)具有数据中心设备的物理实体信息;可跟踪位置与运行状况;利用动力和环境信息来减少风险和浪费。
属于中等效率的运维管理。
有标准的变更过程完整的文档分级的访问权限能源监视和测量可靠的服务4444级:
优化级级:
优化级(Optimizing)(Optimizing)(Optimizing)(Optimizing)包含了数据中心多系统以及物理与虚拟IT设备的集成;采用预测模型;多视角面向服务的管理;近似实时数据优化。
属于中等效率的运维管理。
采取服务驱动的方法变更过程的可回溯性集成的变更配置(CMDB)容量管理的智能化基础设施的监控策略5555级:
自适应级级:
自适应级(Self-Agile(Self-Agile(Self-Agile(Self-Agile)在全生命
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 DCIM 技术 白皮书