数据中心场地基础设施运维管理标准.pdf
- 文档编号:3430278
- 上传时间:2023-05-05
- 格式:PDF
- 页数:54
- 大小:2.12MB
数据中心场地基础设施运维管理标准.pdf
《数据中心场地基础设施运维管理标准.pdf》由会员分享,可在线阅读,更多相关《数据中心场地基础设施运维管理标准.pdf(54页珍藏版)》请在冰点文库上搜索。
现代数据中心网(Dcjchina.com.cn)现代数据中心网(Dcjchina.com.cn)1前言随着大数据、云计算、智慧城市、移动互联网和物联网等应用的快速发展,各行各业对于数据中心场地基础设施的需求也越来越大。
数据中心单体规模越大、系统越复杂,其脆弱性也越高,对于数据中心运行维护管理水平的要求也就越高。
中国数据中心产业发展联盟为了提升整个数据中心行业在数据中心场地基础设施的运维管理水平,特发起了本标准的制定。
本标准适用于:
政府及企业信息化管理负责人、数据中心负责人、数据中心场地基础设施的运维管理人员。
本标准可为以上人群进行数据中心场地基础设施的运维管理提供系统性的建议,也可作为用户评价数据中心场地基础设施运维服务水平的参考。
本标准专注于数据中心场地基础设施层面。
本标准从安全、人员、设施以及运行四个角度关注以上界定的场地基础设施,以达到高可用性及经济运行的目标。
考虑到标准的篇幅限制,也考虑到不同数据中心间运维目标等级不同、规模不同、配置的巨大差异性,因此,本标准注重于具有普适性的运维管理系统框架的完整性。
考虑到标准需要为数据中心行业提供更加具体的指导,我们将陆续提供一系列的最佳实践文档作为本标准的补充。
本标准由中国数据中心产业发展联盟发起,由以下个人及单位共同完成。
起草人:
程小丹、张广明、吕军、曹洁、李良、康楠、蔡欣、张炳华、喻茂萍、陈炎通、张凯、张永萍、石葆春、李润生、李崇辉、尼米智、李红坤、文静、张艳辉、吴铁刚、袁晓东、姜俊海、曹存义、杨智丹、王茜、左天祖、苏旭江、许志德、李宁、邹松、丁结良、彭飞、刘俊梅、郑圆圆、赵磊。
参与单位:
北京中科仙络咨询服务有限公司百度在线网络技术公司宝德科技集团股份有限公司北京德拓天全信息技术服务有限公司北京云泰数通互联网科技有限公司国富瑞数据系统有限公司华为技术有限公司联通云数据有限公司运维与服务部上海斐讯数据通信技术有限公司施耐德电气信息技术(中国)有限公司23世纪互联数据中心有限公司曙光云计算技术有限公司招商银行股份有限公司中国电信股份有限公司云计算分公司中国移动通信集团公司政企客户分公司支持单位:
北京企商在线数据通信科技有限公司蓝汛首鸣数据中心南京诚赢软件科技有限公司润泽科技发展有限公司山东银澎百盛云计算技术有限公司上海迪佑拂科技咨询服务有限公司上海数讯信息技术有限公司苏州国科综合数据中心有限公司太极计算机股份有限公司万国数据服务有限公司中铁程科技有限责任公司广州宽带主干网络有限公司中金数据系统有限公司本标准将定期更新,以适应数据中心技术及管理最佳实践发展的新趋势。
相关单位及个人对于本标准有任何改进建议或意见,请发邮件至秘书处,联系邮箱:
mishuchuchinabda.org。
目录一、规范性引用文件.5二、术语和缩略语.52.1术语.52.2缩略语.7三、管理范畴.83.1管理目标.83.2参与数据中心建设过程.83.3测试验证.93.4技术文档.103.5管理边界.10四、安全管理和质量管理.114.1人员安全.114.2物理环境安全.114.3质量管理.12五、人员管理.135.1组织及人员.135.2培训及认证.145.3运维外包服务商.15六、设施管理.166.1资产数据库.166.2预防性维护.166.3操作流程.176.4工具及备件管理.186.5供应商管理.186.6生命周期管理.196.7运维管理系统.19现代数据中心网(Dcjchina.com.cn)23世纪互联数据中心有限公司曙光云计算技术有限公司招商银行股份有限公司中国电信股份有限公司云计算分公司中国移动通信集团公司政企客户分公司支持单位:
北京企商在线数据通信科技有限公司蓝汛首鸣数据中心南京诚赢软件科技有限公司润泽科技发展有限公司山东银澎百盛云计算技术有限公司上海迪佑拂科技咨询服务有限公司上海数讯信息技术有限公司苏州国科综合数据中心有限公司太极计算机股份有限公司万国数据服务有限公司中铁程科技有限责任公司广州宽带主干网络有限公司中金数据系统有限公司本标准将定期更新,以适应数据中心技术及管理最佳实践发展的新趋势。
相关单位及个人对于本标准有任何改进建议或意见,请发邮件至秘书处,联系邮箱:
mishuchuchinabda.org。
目录一、规范性引用文件.5二、术语和缩略语.52.1术语.52.2缩略语.7三、管理范畴.83.1管理目标.83.2参与数据中心建设过程.83.3测试验证.93.4技术文档.103.5管理边界.10四、安全管理和质量管理.114.1人员安全.114.2物理环境安全.114.3质量管理.12五、人员管理.135.1组织及人员.135.2培训及认证.145.3运维外包服务商.15六、设施管理.166.1资产数据库.166.2预防性维护.166.3操作流程.176.4工具及备件管理.186.5供应商管理.186.6生命周期管理.196.7运维管理系统.19现代数据中心网(Dcjchina.com.cn)45一、规范性引用文件下列文件对于本文件的应用是必不可少的。
凡凡是注明日期的引用文件,仅注日期的版本适用于本文件。
凡是不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB50157电子信息系统机房设计规范GB26860电力安全工作规程发电厂和变电站电气部分DL408电业安全工作规程二、术语和缩略语2.1术语2.1.1数据中心(DataCenter)主要功能为容纳一个计算机房和该计算机房的各个支持区的一栋建筑或者一栋建筑的一部分。
包括容纳信息技术系统的主机房、支持信息技术系统运行的辅助区和行政管理区。
2.1.2场地基础设施(SiteInfrastructure)数据中心内为信息技术系统提供运行保障和运行环境的场地设施。
包括容纳IT系统的主机房,支持IT系统运行的供电系统、制冷系统、消防系统、安防系统、监控系统及其路由等配套设施及维护IT系统的辅助设施。
2.1.3运维管理(OperationandMaintenanceManagement)对数据中心场地基础设施进行日常运行和维护,确保各项基础设施系统安全稳定地运行。
运维管理包括制定运维制度和计划、执行运维计划、响应场地基础设施故障、突发事件等紧急情况。
2.1.4生命周期(LifeCycle)通常指数据中心从投产到经济寿命结束的全过程。
但也有将投产前的规划期、设计期、建设期、测试验证期作为生命周期一部分(孕育期)的说法。
2.1.5测试验证(Commissioning)验证并记录数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。
2.1.6健康评估(HealthAssessment)全面系统性地对机房现有使用状态、设备运行情况、运维管理制度及流程等进行全方位的检查。
七、运行管理.207.1运行管理制度.207.2设施监控、巡检、及交接班管理.217.3机房清洁管理.217.4标签标识管理.217.5变更管理.217.6事件管理.227.7应急响应.227.8容量管理.237.9能效管理.237.10预算管理.24八、附录:
数据中心场地基础设施运维管理最佳实践.25附录A测试验证的最佳实践.25附录B数据中心市电断电应急预案.39附录C数据中心机房基础设施运维人员架构图.44附录D数据中心场地基础设施运维中易犯的十大错误.45现代数据中心网(Dcjchina.com.cn)45一、规范性引用文件下列文件对于本文件的应用是必不可少的。
凡凡是注明日期的引用文件,仅注日期的版本适用于本文件。
凡是不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB50157电子信息系统机房设计规范GB26860电力安全工作规程发电厂和变电站电气部分DL408电业安全工作规程二、术语和缩略语2.1术语2.1.1数据中心(DataCenter)主要功能为容纳一个计算机房和该计算机房的各个支持区的一栋建筑或者一栋建筑的一部分。
包括容纳信息技术系统的主机房、支持信息技术系统运行的辅助区和行政管理区。
2.1.2场地基础设施(SiteInfrastructure)数据中心内为信息技术系统提供运行保障和运行环境的场地设施。
包括容纳IT系统的主机房,支持IT系统运行的供电系统、制冷系统、消防系统、安防系统、监控系统及其路由等配套设施及维护IT系统的辅助设施。
2.1.3运维管理(OperationandMaintenanceManagement)对数据中心场地基础设施进行日常运行和维护,确保各项基础设施系统安全稳定地运行。
运维管理包括制定运维制度和计划、执行运维计划、响应场地基础设施故障、突发事件等紧急情况。
2.1.4生命周期(LifeCycle)通常指数据中心从投产到经济寿命结束的全过程。
但也有将投产前的规划期、设计期、建设期、测试验证期作为生命周期一部分(孕育期)的说法。
2.1.5测试验证(Commissioning)验证并记录数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。
2.1.6健康评估(HealthAssessment)全面系统性地对机房现有使用状态、设备运行情况、运维管理制度及流程等进行全方位的检查。
七、运行管理.207.1运行管理制度.207.2设施监控、巡检、及交接班管理.217.3机房清洁管理.217.4标签标识管理.217.5变更管理.217.6事件管理.227.7应急响应.227.8容量管理.237.9能效管理.237.10预算管理.24八、附录:
数据中心场地基础设施运维管理最佳实践.25附录A测试验证的最佳实践.25附录B数据中心市电断电应急预案.39附录C数据中心机房基础设施运维人员架构图.44附录D数据中心场地基础设施运维中易犯的十大错误.4562.1.7预防性维护(PreventiveMaintenance)为降低产品发生失效或功能退化的概率,按预定的时间间隔或按既定的准则实施的维护。
2.1.8风险评估(RiskAssessment)针对运行的设备所面临的威胁、存在的弱点、造成的影响,以及三者综合作用所带来风险的可能性的评估,同时确定风险是否可容许的全过程。
2.1.9容量管理(CapacityManagement)对于基础设施在空间、电力承载能力、制冷能力等方面的评估,以满足IT数据存储和处理的需要容量。
为了实现其目标,容量管理需要与业务及IT战略流程保持密切的联系。
2.1.10资产管理(AssetManagement)对于数据中心基础设施中每个资产建立独有的标识,并详细进行资产描述、制造商、型号、安装日期、保修期等信息的记录管理。
2.1.11可用性(Availability)在所有要求的外部资源得到提供的情况下,数据中心在规定的时刻或规定的时间段内处于能执行要求的功能状态的能力。
它是衡量数据中心等级、运维水平的重要指标。
可用性的计算如下:
2.1.12绿色运行(GreenOperation)指数据机房中的制冷、照明和电气等能取得最大化的能源效率和最小化的环境影响。
2.1.13负载(Load)指连接在电路中的电源输出的设备。
负载是把电能转换成其他形式的能的装置。
2.1.14气流组织(Air-FlowOrganization)指在机房内对冷热气流的流向按一定要求进行疏导和组织。
现代数据中心网(Dcjchina.com.cn)72.2缩略语2.2.1PUE(PowerUsageEffectiveness,电力使用效率)PUE是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载使用的能源之比。
PUE=数据中心总设备能耗/IT设备能耗PUE是一个比值,越接近1表明能效水平越好。
2.2.2SLA(ServiceLevelAgreement,服务等级协议)服务提供商和客户之间签署的、描述服务范围和约定服务级别的协议。
2.2.3MOP(MethodOfProcedure,维护作业程序)MOP是维护作业程序,用于规范和明确数据中心基础设施运维工作中各项设施的维护保养审批流程、操作步骤。
2.2.4SOP(StandardOperatingProcedure,标准操作流程)SOP即标准操作流程,是将某一项工作的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的运维工作。
2.2.5EOP(EmergencyOperatingProcedure,应急操作流程)EOP是应急操作流程,用于规范应急操作过程中的流程及操作步骤。
确保运维人员可以迅速启动,确保有序、有效地组织实施各项应对措施。
2.2.6CMMS(ComputerizedMaintenanceManagementSystem,计算机化维护管理系统)用以系统性地设置并跟踪运维任务的执行情况,存储操作流程及相应运维人员的操作权限等维护工作相关信息。
现代数据中心网(Dcjchina.com.cn)8三、管理范畴3.1管理目标数据中心场地基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。
制定目标时,应综合考虑数据中心所支持的应用的可用性要求、数据中心场地基础设施设施的等级、容量等因素。
目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。
不同应用的可用性目标的数据中心,可设定不同等级的数据中心场地基础设施的运维管理目标。
3.2参与数据中心建设过程数据中心运维团队应充分了解自己将要管理的场地基础设施。
对于新建数据中心,应尽早参与数据中心场地基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。
3.2.1应参与规划设计数据中心的规划设计是一个谨慎和严谨的过程,需要所有参与数据中心建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。
其中,场地基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。
3.2.2应参与相关供应商遴选数据中心场地基础设施运维团队应参与数据中心基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。
并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出要求。
3.2.3应参与建造管理数据中心的场地基础设施运维团队应积极参与数据中心场地基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。
数据中心场地基础设施运维团队应充分了解施工过程中的工艺。
对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。
现代数据中心网(Dcjchina.com.cn)93.3测试验证数据中心场地基础设施投产前的测试验证是确保数据中心场地基础设施满足设计要求和运行要求的关键环节。
3.3.1时间和预算数据中心的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。
应制定测试验证的工期规划,以更准确地预测数据中心场地基础设施交付投产的日期。
3.3.2测试验证参与方项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。
但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。
数据中心场地基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。
数据中心关键设备提供商及工程总包商,应积极配合测试验证工作,应在供应商合同中对此项有明确要求。
3.3.3测试验证内容验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。
测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。
3.3.4设施健康评估当接手已在运行的数据中心场地基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。
不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。
现代数据中心网(Dcjchina.com.cn)103.4技术文档完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。
运维团队在开展运维工作前,应从业主或者原运维单位得到场地基础设施的全套相关文档,包括但不限于:
数据中心的规划设计资料及竣工图纸、反映机房最近一次改造后真实现状的图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、数据中心所在建筑的建筑设计资料、竣工图纸。
整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。
3.5管理边界为了明确管理责任,数据中心场地基础设施运维团队应将可能影响数据中心场地基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。
这些因素包括但不限于:
不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。
现代数据中心网(Dcjchina.com.cn)11四、安全管理和质量管理4.1人员安全数据中心场地基础设施运维团队要编制正式的数据中心生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。
并加强对于该部分规范的合规度的培训、考试和审核检查,以确保数据中心运维人员的人身安全。
相关安全生产规范主要包括:
数据中心生产环境安全管理规范;数据中心场地基础设施各系统安全管理手册;数据中心场地基础设施涉及安全的应急预案;数据中心场地基础设施管理过程涉及的技术方案中的安全管理策略。
数据中心场地基础设施中与电气相关的工作存在着固有危险。
设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。
电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。
此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。
相关国家、行业规程包括但不限于:
GB26860电力安全工作规程发电厂和变电站电气部分;DL408电业安全工作规程。
4.2物理环境安全应了解周边社会环境信息,评估潜在的安全风险并制定预案。
这些信息宜包含但不限于:
周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。
可建立周边社会环境管理资料库。
应了解数据中心所在地的历史自然灾害情况。
包含但不限于GB50174及TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。
应建立并执行严格的数据中心设备、人员、车辆进出管理制度。
应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。
现代数据中心网(Dcjchina.com.cn)124.3质量管理在数据中心场地基础设施运维过程中建立完善的质量管理体系,是保障以上数据中心场地基础设施运维趋于卓越的重要因素和手段。
数据中心场地基础设施运维团队的所有关键工作应包括以下的质量管理要素:
4.3.1质量保证过程制定;程序制定;过程审核和批准;过程和程序培训。
4.3.2质量控制事件回顾;质量检查和检验;定期质量审核。
4.3.3质量改进故障分析;经验教训;优化及创新计划。
现代数据中心网(Dcjchina.com.cn)13五、人员管理5.1组织及人员5.1.1组织架构数据中心运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。
中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:
运维巡检团队主要职责:
对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。
技术管理团队主要职责:
对数据中心场地基础设施提供运维技术支持,解决技术问题,承担数据中心场地基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。
物理环境安全管理团队主要职责:
对物理环境安全进行管理,进行安全巡检等工作。
5.1.2人员配制场地基础设施运维人员的配备应根据运维管理目标或SLA来确定。
中高等级的数据中心,可按照7X24的运行要求配置运维人员。
上岗人员应具备国家要求的相应资格证书。
应在运维管理程序中明确规定资质等级与操作权限的一致性。
高等级以及具有一定规模的数据中心,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。
等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。
运维团队的关键岗位应有人员备份和储备。
数据中心场地基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B角色配置,日常工作中应注意角色的分配和工作的配合。
其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。
现代数据中心网(Dcjchina.com.cn)145.1.3绩效管理为了提高运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护场地基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。
5.1.4人员管理制度为了保障场地基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 场地 基础设施 管理 标准