数据中心应用信息系统运行维护管理规范Word文档格式.docx
- 文档编号:5712026
- 上传时间:2023-05-05
- 格式:DOCX
- 页数:22
- 大小:30.18KB
数据中心应用信息系统运行维护管理规范Word文档格式.docx
《数据中心应用信息系统运行维护管理规范Word文档格式.docx》由会员分享,可在线阅读,更多相关《数据中心应用信息系统运行维护管理规范Word文档格式.docx(22页珍藏版)》请在冰点文库上搜索。
乙方应明确文档管理的责任人。
乙方应对运维过程中涉及的各类文档进行分类管理,可按照制度文档、技术文档、合同文档、审批记录、日志记录等进行分类,并统一存放。
乙方应规范文档的发布管理,对文档的版本应当进行控制。
文档应标识敏感性、使用范围、使用权限、审批权限等。
文档在使用时应能读取、使用最新版本,防止作废文件的逾期使用。
乙方对超范围、超权限使用文档时应保存相关审批、使用记录。
1.4 设备和软件管理
乙方应建立计算机相关设备和软件管理制度,对设备和软件的验证性测试、出入库、安装、盘点、维修(升级)、报废等进行规范。
乙方应明确设备和软件管理责任人。
乙方应在设备和软件投入使用前进行必要的验证性测试,并保留测试记录。
乙方应编制信息系统设备清单,主要包括设备名称、设备编号、入库时间、设备主要参数、设备序列号、设备状态、设备保修期、设备位置、设备用途和设备使用责任人等内容,并保留设备启用、转移、维修、报废等过程的记录。
乙方应使用正版软件并保存软件授权证书和许可协议,应编制软件清单,主要包括软件名称、软件编号、入库时间、软件版本,授权和许可情况、软件序列号、软件状态、软件维护期、软件安装设备、用途和使用责任人等内容,并保留软件启用、转移、升级、报废等过程的记录。
乙方应对设备进行标识,标识应放在设备明显位置。
乙方应规定设备和软件的使用年限,定期进行盘点,并对设备状态进行评估和更新。
乙方应对外送设备的维修进行严格管理,防止数据泄露。
乙方应对拟下线和拟报废设备的存储介质中的全部信息进行清除或销毁。
对正式下线设备和软件交指定部门统一管理、保存或处置,并保留相应记录。
设备和软件报废应符合资产管理规定。
1.5 供应商管理
乙方应建立供应商管理制度,对供应商支持运维服务的相关活动进行统一管理。
乙方应在与供应商签订的合同中明确其应承担的责任、义务,并约定服务要求和范围等内容。
乙方应与供应商签署保密协议,不得泄露所服务机构的保密信息,并要求供应商签署承诺书,承诺产品不存在恶意代码或未授权的功能,不提供违反我国法律法规的功能模块。
乙方应定期收集、更新供应商信息,组织对供应商的服务质量、合同履行情况、人员工作情况等内容进行评价,形成评价报告,并跟踪和记录供应商改进情况。
乙方应加强运维外包服务管理,主要包括:
c)与外包公司及外包人员签订保密协议;
d)明确外包公司应当承担的责任及追究方式;
e)明确界定外包人员的工作职责、活动范围、操作权限;
f)对外包人员工作情况进行监督和检查,并保留相应记录;
g)对驻场外包人员的入场和离场进行管理;
h)定期评估外包的服务质量;
i)制定外包服务意外终止的应急措施。
1.6 关联单位关系管理
乙方应建立关联单位联系制度。
关联单位包括和数据中心相关经办单位以及相关兄弟部,银行机构,电力和通信设施保障机构,软硬件供应商,技术服务商和物业公司等。
乙方应建立关联单位联系表,表的内容至少包括单位名称、业务事项、联系人、联系方式、备注等,并及时更新。
1.7 督促检查
乙方应建立检查审计制度,对运维制度的执行情况和运维工作开展情况定期进行检查和审计,以督促运维工作持续改进。
乙方应指定人员负责对日常操作执行情况进行每日检查,确保运维管理制度和操作流程有效执行。
乙方应每季组织开展内部检查,形成检查报告。
乙方应在每年审计工作中包含信息系统运维管理工作审计项目,并形成审计报告。
检查和审计范围至少包括对运维管理制度和操作流程的合理性和完整性进行评估,对运维管理制度和操作流程的执行情况进行评估,对文档、配置、数据的有效性进行评估,对整体安全状况进行评估,对运维人员履职能力进行评估等。
乙方应对检查和审计的结果采取纠正性和预防性的措施。
2 运行保障
2.1 运维值班管理
乙方应建立运维值班管理制度,对日常操作、监控管理、事件处理、问题处理、数据和介质管理、机房管理、安全管理、应急处置进行规范。
乙方应指定运维值班负责人。
运维值班负责人负责日常操作的部署、检查、风险控制、业务衔接等工作。
运维值班负责人应有备岗。
主备岗不得同时离岗。
乙方应制定运维值班安排表,可根据实际情况实施倒班制度。
在值班期间值班人员不得擅离岗位。
乙方应制定交接班流程,并严格执行,留存记录。
乙方应设置运维值班电话,并保持畅通。
2.2 日常操作
乙方应制定操作手册。
操作手册的内容应至少包括信息系统日常运行操作的各个环节。
针对各个操作环节制定操作规程。
核心业务系统的操作规程应至少包括操作的对象、时间、步骤、指令、操作要点、复核要点、操作人、复核人等基本要素。
乙方应严格按照操作手册执行运维操作,对核心业务系统的操作过程应进行记录留痕,记录的保存时间不少于一年。
特殊操作、临时操作应经批准后方可双岗执行。
操作过程应进行记录留痕,记录的保存时间不少于一年。
乙方应依据业务、信息系统的变化对操作手册及规程进行及时修订,经审批通过后遵照执行。
乙方应对核心核心业务系统设置独立的操作和监控环境,并与开发、测试等其他操作环境严格分离。
2.3 监控分析
乙方需要采用商业化成熟稳定的监控产品,所使用监控软件需要在国内市场占有率排名前三,并在本地有原厂商技术支持人员,提供本地化服务。
乙方采购的监控产品应具备数据中心主备统一管理的能力,包含对现有数据中心和灾备数据中心,以及未来规划数据中心中各种软硬件的集中管理能力。
乙方应采取监控措施,配备监控和报警工具,对影响信息系统正常运行的关键对象,包括机房环境、网络、通信线路、主机、存储、数据库、核心核心业务相关的应用系统、安全设备等进行监控。
报警方式可包括声音、屏幕通知、短信、电话、邮件等。
乙方应采取自动化监控方式,对核心业务系统进行24小时监控。
核心时段应指定人员对核心业务系统进行监控,核心时段以外如无法做到人工监控,应开启自动监控系统和自动报警系统。
乙方应建立辅助的人工巡检制度,规定巡检内容、频度、人员等。
巡检内容应覆盖电力、空调、消防、安防等机房设施,主机、网络、通信、安全等设备的运行状况。
巡检结果应及时记录,如遇异常应及时处理,并按规定要求进行报告。
乙方应正确设置自动化监控工具的预警阈值,核心系统检测周期不小于15秒,并定期进行检查和评估。
监控系统支持大数据存储和分析能力,要求提供10万KPI,5分钟间隔密度的数据存储1年,并可通过系统界面查看历史数据;
可以提供周维度的健康状态视图,从连续几周数据中分析运维变化趋势,并定位改进突破点,至少列出问题最多的设备和指标、关键指标环比变化最大的线路和主机。
提供日维度的运维工作总览视图,至少包含当前重要事件、近期重要事件、昨日设备性能变化汇总;
数据基线化监控,系统能自动学习业务运行规律,以此生成基线,实现自动化基线运维,通过对基线的数据分析,能及时捕获偏离运维历史情况的异常,当异常出现频率过高时能及时告知管理员。
知识库管理,系统提供知识库管理功能,当同类型告警出现多次后,能主动提示管理员并收集相关处置意见,并在告警出现后,系统自动提示相关联的处置意见;
报表管理,报表与分析功能系统应该提供无压缩的数据存储机制,支持至少1
年无压缩数据存储。
能提供详尽的历史趋势分析功能和报表统计内容;
提供各类预制报表,包括网络类、主机类、虚拟化类和存储类的运行率报表、故障告警统计分析报表和性能分析报表。
同时,提供自定义报表功能,以报表模板为基础,可根据模板,进行内容和报表推送方式的定制。
支持用户个性化报表开发,提供方便的报表模板加载功能,可提供样式和数据的个性定制。
报表功能支持统计时间的自定义,比如实现工作日报表统计,仅统计9:
00-18:
00
工作时间性能;
支持统计时段的自定义,比如以25日为结算点的月报表统计;
支持统计页面内容的自定义配置,支持按照权限生成不同的管理报表,并按角色分配报表查看人员;
提供日、周、月等各时段的报表周期统计;
提供各类型报表的导出功能,支持html、PDF、word、ppt格式;
用户与权限管理功能,系统权限至少应该分为
3
种处理模式:
菜单权限:
根据一般常用操作方式对现有菜单进行划分,结合对于个体对象的权限设置,规划出软件设置和查看、网络和主机不同管理域的不同管理要求;
资源权限:
通过对
IP、IP网段的设置,实现对于权限规划的设定,系统根据设置的资源权限,实现查看的过滤;
管理权限:
对于报表、告警规则依托资源权限,具备全资源权限才可更改,具备配置权限的人员可分配这些生成内容的查看权限。
主要监控指标具体如下:
a)机房:
电力状态、空调运行状态、消防设施状态、温湿度、漏水、人员及设备进出等;
b)主机管理系统应支持对于Windows、HPunix、Aix、Solaris、linux(redhat、CentOS、Suse(oracle)、Redflag)类型操作系统的管理,支持对于CPU、内存、进程、日志、网络流量、磁盘性能的监控;
支持国产麒麟操作系统管理,支持对于CPU、内存、进程、日志、网络流量、磁盘性能的监控支持HP、Dell、IBM的windows服务器及IBMAIX小机的硬件状态的监控,监控内容包括温度、风扇、磁盘、CPU、内存、电源等重要主机硬件的状态监控。
支持IPMI方式监控国产服务器硬件,监控内容包括温度、电源、风扇、电压等硬件状态;
支持对主机进程列表的监控,支持定期备份进程表,支持进程表比对,进程状态告警。
支持用户自定义数据库、业务系统的文本日志关键字检测。
支持主机趋势管理视图,包括CPU、内存、文件系统,流量指标的对比,磁盘容量可用时间的预测;
支持自动搜索出存在内存泄露的主机,并找出具体泄露进程;
支持波浪图方式显示所有主机的全局信息,以图形化方式显示主机的常用管理参数。
可对统计范围内的主机进行详细的实时分析数据,根据使用率自动按照TOP20排名。
提供最近一个月操作系统总体负载使用的TOP20的排名;
支持系统拓扑图,一张图可以展现所有主机承载的数据库、中间件和标准应用之间的实时状态监控,为主机监控提供全景视图。
c)数据库管理数据库管理支持SQLServer、Oracle、Sybase、Mysql、Informix、DB2等数据库的各项常用运行参数,支持ODBC和JDBC取数。
支持国产达梦数据库的管理,提供数据库运行视图支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行,支持对表空间大小和会话数、缓存信息、锁信息进行重点监管。
支持对于数据库log日志文件监控,支持常见错误日志的实时监控。
支持OracleRac的管理,支持集群分成操作系统、clusterware、实例方式展现,支持动态数据对比,检测各个承载主机的性能表现
d)中间件管理中间件管理中间件管理必须支持对WEBLogic、、Tuxedo、WebSphere、EAServer、Cognos、MQ、Apache、Tomcat、Jboss、IIS、TongWeb等中间件实时监控。
e)标准应用管理标准应用管理支持FTP、SFTP、HTTP、HTTPS、POP3、SMTP、DHCP、JVM、Exchange的监控。
支持图形化方式显示应用的承载主机状态和应用的基本性能信息,展示相关的运维负责人和联系方式。
f)网络管理,支持由分布式采集器为起点的拓扑发现算法支持对全网的网络设备线路按照流量、带宽占用比、丢包率、错包率、广播包等指标的实时负载进行排名。
可根据IP或MAC查询某客户端连接在哪个交换机的哪个端口;
支持以IP段方式预设各类管理规则,实现分类管理.支持网络设备的ARP表、MAC表、路由表等表格数据定期存储,差异自动比对,提供路由表历史快照对比。
要求拓扑图上的设备和线路支持按照性能参数的不同区间以红、黄、绿颜色进行显示,性能负载可自定义;
支持不同采集域的设备在一张图上进行展现,且通过图标跳转到任意拓扑图;
对网络链路丢包,错包,广播包的趋势变化进行实时监控,帮助判断网络潜在的故障风险,并且提供详尽的处理建议。
对设备配置进行管理,实现网络设备的配置文件自动备份,并支持对配置文件变更状况进行自动监控,当出现变动时,需要及时通知管理员;
在拓扑图上可直接显示线路峰值流量、广播流量、组播流量信息。
g)存储管理,支持存储设备硬件管理,以统一的视图展现被管的各个硬件子项的运行详情,清晰展现各个管理设备的各类型管理状态,并以颜色显著标示出现问题的硬件类型;
涉及到磁盘阵列的电源、电池、风扇、温度、磁盘、控制器等各个关键硬件信息支持存储空间使用全局视角,当前所有磁盘阵列设备已经使用空间的统计;
当前哪个设备已配置的数据池,有足够的空间可以分给给业务主机使用,列出Pool已使用的排行;
当前哪个磁盘阵列还有未分配给主机的lun信息,便于解决lun的浪费问题;
提供各个业务主机磁盘使用的增长规律和使用预测,便于事前做好扩容规划;
支持存储设备性能管理,提供LUN读IOPSTOP排行;
提供LUN写IOPSTOP排行;
提供LUN总IOPSTOP排行;
提供LUN的总传输字节数TOP排行;
提供按照传输流量的存储线路排行支持对SAN网络中磁盘阵列、光纤交换机、HBA、线路的监管,支持多厂商存储设备的SAN网络异构管理。
支持通过SNMP或SIM-S协议采集磁盘阵列相关指标;
2.4 数据与介质管理
乙方应建立信息系统数据管理制度,对在线和离线数据的使用、备份、存放、保护及恢复验证等活动进行规范。
乙方应明确数据管理责任人,负责数据的收集、使用、备份、检查等策略的制定和执行工作。
乙方应按照国家和监管部门的有关要求,制定数据备份及验证策略,明确备份范围、备份方式、备份频度、存放地点、存放时限、有效性验证方式和管理责任人。
在线数据管理,应做到如下要求:
h)核心业务系统数据应至少每核心日备份一次;
i)核心业务系统历史数据至少保留一年;
j)XX不得访问、复制;
k)对数据的修改应通过审批,双岗操作并记录操作日志。
离线数据管理,应做到如下要求:
l)离线数据不得更改;
m)应至少每季度对核心核心业务系统的备份数据进行一次有效性验证,如发现问题应采取措施修复备份数据,并查明原因;
n)离线数据的调阅、复制、传输、查询,应按照拟定的流程办理审批手续,并进行登记;
o)备份数据带离存储环境时应采取必要的安全措施。
在线数据和离线数据用于非生产环境时,应进行脱敏处理;
用于模拟测试时如无法进行脱敏处理,测试环境应采取与生产环境相当的安全措施。
乙方应建立介质管理制度,对介质的存放、使用、维护和销毁等活动进行规范。
乙方应明确责任人,对介质的使用、转储、送修、销毁及存储环境进行管理。
介质管理,应做到如下要求:
p)应在安全环境中存放介质,并采取控制和保护措施;
q)离线备份介质应当在本地机房、同城、异地安全可靠存放;
r)应对介质在物理传输过程中的打包、交付进行控制;
s)应根据所承载数据和软件的重要程度对介质进行分类和标识管理,并对介质进行归档登记,对存档介质依目录清单定期核对;
t)涉及敏感信息的介质送修时应由专人全程陪同,并保证修复过程可控;
u)介质销毁前应清除介质中的敏感数据;
涉密信息的存储介质不得自行销毁,应按国家相关规定另行处理;
v)在核心业务网使用的移动介质应专网专用,不得接入可以访问互联网的主机。
2.5 机房管理
乙方应建立机房管理制度,对机房环境,供电、空调、消防、安防等基础设施的运行维护,设备和人员出入,机房工作人员等进行规范管理。
乙方应指定机房管理负责人。
乙方应确保机房环境整洁和安全,包括:
w)应定期检查防水、防雷、防火、防潮、防尘、防鼠、防静电、防电磁辐射等措施的有效性;
x)应保持机房环境卫生,采取防尘措施,定期进行除尘处理;
y)核心时间内不得进行机房施工、保洁操作。
乙方应加强用电安全管理。
至少包括:
zz)机房管理员应根据国家有关规定和标准进行用电管理,应重点保障核心核心业务系统用电安全。
aa)机房管理员应掌握常规用电安全操作和知识,了解机房内部供电、用电设备的操作规程,掌握机房用电应急处理步骤、措施和要领。
有条件的可配备专业电工或与相关电力机构或物业机构签署服务协议;
bb)应在危险性高的位置张贴相应的用电安全操作方法、警示及指引;
cc)应每季度至少一次对机房供配电、备用电源系统进行全面检查和维护管理,及时更换老化的电路元件及线缆,应定期测试备用供电系统,确保持续供电设施的有效性,并保存相关检查和维护记录;
dd)未经审批不得接入其它用电设备。
乙方应每季度至少一次对空调设备进行全面检查和维护,保存维护记录。
乙方应制定符合国家规范的机房消防安全管理制度,至少包括:
ee)机房工作人员应熟悉逃生路线和自我保护措施,防止发生人身安全意外;
ff)应将消防安全警示和指示张贴于机房明显位置,将消防设施的操作要点张贴于消防设施旁边;
gg)机房工作人员应熟悉消防设施及操作要点,掌握消防应急措施;
hh)应每季度至少一次对机房内消防报警设备进行检查,保证其有效性;
ii)应定期进行消防设施的使用培训和演习。
乙方应对设备和人员出入进行严格管理,包括:
jj)应指定人员负责控制、鉴别和记录设备和人员的进出情况,记录进出人员、进出时间、工作内容,并留存记录至少90天;
kk)机房出入口的监控录像至少保存90天;
ll)外来人员进入机房应经过申请和审批流程,并限制和监控其活动范围,并有专人陪同;
mm)外来设备未经批准不得接入生产环境。
2.6 网络与系统管理
乙方应建立网络与系统管理制度,对网络、系统的运行维护进行规范。
乙方网络管理应包括:
nn)应合理设置安全域,绘制网络拓扑图,并保持更新;
oo)应定期检查安全隔离情况,确保各安全域之间有效隔离;
pp)应保持网络设备的可用性,及时维修、更换故障设备;
qq)应负责网络系统的参数配置、调优;
rr)应定期对系统容量进行检查和评估,形成评估报告;
ss)应定期检查网络设备的用户、口令及权限设置的正确性;
tt)应定期对整个网络连接进行检查,确保所有交换机端口处于受控状态;
uu)应对网络信息点进行管理,编制信息点使用表,并及时维护和更新,确保与实际情况一致。
计算机网络跳线应整齐干净,跳线标识清晰;
vv)应制定网络访问控制策略,应合理设置网络隔离设施上的访问控制列表,关闭与业务无关的端口;
编制文档并保持更新;
访问控制策略的变更应履行审批手续。
乙方系统管理应包括:
ww)应保持系统的可用性,及时维修、更换故障设备和更新软件;
xx)应负责应用系统、操作系统的参数配置、调优,编制文档并保持更新;
yy)应定期对系统容量进行检查和评估,形成评估报告;
zzz)应负责管理系统和应用程序服务进程,并关闭与业务无关的服务;
aaa)应定期检查应用系统、操作系统的用户、口令及权限设置的正确性。
乙方数据库管理应包括:
bbb)应保持数据库的可用性,及时维护、更新软件;
ccc)应负责数据库的参数配置、调优,编制文档并保持更新;
ddd)应定期对数据库容量进行检查和评估,形成评估报告;
eee)应负责管理数据库、表、索引、存储过程,数据库的升级、优化、扩容、迁移;
fff)应定期检查数据库的用户、口令及权限设置的正确性。
乙方用户和口令管理应符合如下要求:
ggg)不得设置弱口令,若系统条件允许,口令应采用数字、字母、符号混排且无规律的方式,管理员口令长度原则上不低于12位;
核心核心业务系统应提示并阻止用户使用弱口令登录;
hhh)应每季度对管理员口令进行修改,更新的管理员口令至少5次内不能重复;
iii)应用系统的账户及口令应采用加密方式存储、传输;
加密产品的使用应符合国家有关规定;
jjj)应重点加强对匿名/默认用户的管理,防止被非法使用;
kkk)应及时注销不再使用的账户;
lll)应明确责任人,负责统一保管、安全存放管理员口令,不得泄漏。
乙方权限管理应包括如下要求:
mmm)权限分配应履行审批手续,权限设置后应复核;
nnn)应按照最小安全访问原则分配用户权限;
ooo)应建立权限分配表,对用户的访问权限进行合理分配,对文件系统访问权限进行合理设置,编制文档并保持更新;
ppp)应在用户账户变化时,同时变更或撤销其权限;
qqq)应定期检查权限设置的有效性。
2.7 安全管理
乙方应建立安全管理制度,覆盖安全策略的制定、实施、检查、评估、改进等全过程。
乙方应指定专人担任安全管理员,负责信息安全管理工作;
在自身能力不足的情况下,可外聘安全机构协助完成。
乙方应采取安全防护措施,包括:
rrr)应对所有服务器和终端设备安装防木马、病毒软件,建立统一病毒和木马防护机制。
因故不能安装防病毒软件的,应采取其他等效的安全防护措施;
sss)应在充分评估的基础上,对所有服务器和终端设备进行补丁升级;
补丁升级前进行测试验证;
ttt)应综合运用防火墙、入侵检测等安全设备,保护网络与系统;
应正确设置安全设备的接口参数和过滤规则;
uuu)应对新上线的设备在接入运行网络前进行全面的安全检查;
vvv)应采取限制IP登录等手段,控制对核心业务主机、主干网络设备、安全设备等的访问;
www)原则上不得通过互联网对防火墙、网络设备、服务器进行远程管理和维护,特殊紧急情况下应采取限制登录IP、数字证书或动态口令认证、全程监控等措施,在操作完成后应及时关闭,并对维护过程进行监控并留存记录;
xxx)原则上不得在核心时段对核心业务网的网络设备、安全设备、系统设备进行更换或变更配置;
yyy)原则上不允许通过无线网络对核心业务网进行网络管理;
zzzz)应设置抵御连续猜测等对客户账户恶意攻击行为的策略;
aaaa)应对门户网站建立防篡改机制,防止网页内容、可下载的客户端软件等被XX的修改;
bbbb)门户网站不得存放客户资料、核心数据等客户敏感数据;
乙方应定期进行安全检查,包括:
cccc)应定期对服务器进行全面病毒扫描,但不得在核心时段内进行;
dddd)应建立定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 应用 信息系统 运行 维护 管理 规范