企业运维系统建立初探.docx
- 文档编号:14717145
- 上传时间:2023-06-26
- 格式:DOCX
- 页数:10
- 大小:67.21KB
企业运维系统建立初探.docx
《企业运维系统建立初探.docx》由会员分享,可在线阅读,更多相关《企业运维系统建立初探.docx(10页珍藏版)》请在冰点文库上搜索。
企业运维系统建立初探
企业运维系统建立初探
【摘要】随着IT技术在应用,许多企业已经建立了核心业务系统,企业运作已经离不开IT系统了。
如何保障信息系统安全可靠运行已成为企业最为关注问题,而传统运行维护管理模式已经不能适应目前环境下业务需求。
因此对IT系统需要一套管理系统来支撑,这就是运行维护系统。
【关键词】运维系统 运维服务 IT技术
一、背景说明
随着IT技术在企业应用,许多企业已经建立了核心业务系统,如ERP、OA、数据仓库等,业务策略驱动IT策略建立,IT策略支持业务策略,由此,许多企业运作已经离不开IT系统了,因此任何一个故障造成损失,影响面是比较大,甚至影响整个企业业务。
而传统运行维护管理模式比较被动,即只有当系统出问题时,才会引起注意和得到解决,或者当业务受影响,并被业务部门汇报投诉,才发现问题。
这种管理模式已经不能适应目前环境下业务需求。
其次,从生命周期角度看,无论是硬件还是软件,大致可分为规划和设计、开发和测试、实施、运营和终止等5个阶段。
前面3阶段从时间角度看,只占生命周期20%,其余80%时间基本上是运维服务,如果整个IT运维做得不好,那么这些花费大笔投资建立起来系统,无法带来预期效益,甚至于无法使用,因为使用者无法顺利使用他们。
根据GartnerGroup调查发现,在经常出现问题中,源自技术和产品方面其实只占了20%,流程失误占40%,人员疏失占40%。
流程失误包括变更管理没有做好、超载、没有测试等流程上失误或不完整,人员疏失包括遗忘、训练不足、备份错误及安全疏忽等。
这就说明IT运维方面问题,更多不是技术问题,而是来自管理方面,因此对IT系统需要一套管理系统来支撑,这就是运行维护系统。
二、信息系统运行维护面临挑战
一般信息系统架构层次如下:
由此,我们可以看到,为了保证应用系统可用性,不但要保证应用程序本身正确性和健壮性,同时还要保证从到应用程序端到端可用性,为此,从运行维护角度来看,必须从整体角度来规划,对与应用系统相关IT基础设施、支撑平台进行集中监控,并与应用系统进行关联,一旦出现故障,可以迅速定位并解决;同时定义相关流程保证一个应用变更不会对其他应用产生影响,对出现问题从根源上找出原因,并进行解决,从而保证系统高可用性。
基于本人对IT服务管理理解,基于ITIL框架,提出运行维护系统建立一些想法。
()
三、运行维护系统设计
那么如何设计IT运行维护系统呢?
主要从两方面着手,一是管理流程设计,二是系统监控设计。
在管理流程方面,目前ITIL(ITInfrastructLibrary)基本上成为事实上标准,它是最佳实践结晶;在系统监控方面包括从IT基础设施应用系统进行监控,并实现事件关联,以实现主动监控,实现故障快速定位和预警,下面具体说明。
(一)运维系统设计理念
运维系统设计理念基于ITIL-IT服务管理框架,ITIL将IT服务管理分为:
●信息和通信基础框架管理,这部份将更侧重于技术视角。
●服务管理,包括“提供IT服务”和“支持IT”服务两部分,关注在提供IT服务过程中,监控,管理,处理解决问题整个过程。
●面向业务管理,将从业务视角来看管理,将管理IT服务与IT服务所支撑业务关联。
1.信息和通信基础框架管理
IT基础框架智能管理是服务保障基础,应该是一个可以全面管理IT基础框架中所有产品和技术平台,并通过提供以下能力达到真正业务价值、真正投资回报、保障安全生产,提高服务水平。
IT基础框架智能管理将覆盖企业IT环境,提供包括广域网,局域网,主机接入网络,网络安全设备,Internet服务全方位IT从网络到系统,应用,业务监控管理,以及面向IT运维事件压缩,事件相关性分析,故障诊断,根源故障分析,自动化故障处理等一系列功能和工具。
[信息来源"岁月联盟"]
2.服务管理
今天,正进行着服务管理革命。
几乎所有企业IT部门都正在向面向业务服务提供者转变。
IT部门就像一个合作伙伴一样参与到企业业务过程,主动提供服务职能,并向它客户-业务部门负责。
ITIL将企业IT服务管理分为:
提供IT服务,关注在提供IT服务过程中和管理行为和手段;
支持IT服务,关注在支持IT服务过程中,处理问题,变更等动作和流程。
(1)提供IT服务
提供IT服务包括:
制定规划,为业务部门按计划和服务质量提供服务
保障提供服务持续性。
在服务提供体系实现主要任务是:
■服务水平管理
■可用性管理
■容量管理
■成本管理
■应急方案
(2)支持IT服务
支持IT服务包括:
为达到服务目标提供相关管理信息。
为实现服务目标提供相应支撑机制。
服务支持体系实现主要任务是:
■配置管理
■帮助台管理
■问题管理
■变更管理
■软件控制和分发管理
3.面向业务管理
面向业务IT管理是从客户视角端到端服务监控管理,它特点是:
提供直观监控视图,能够实时判断通信和IT基础框架故障对业务影响;
在发生影响业务故障时,IT服务保障部门能够最快获知问题发生,并迅速采取行动;
根据故障对业务影响情况,决定处理优先级;
当业务服务发生问题时能够确定故障所在基础框架层次;
通知相关客户服务系统或大客户,告知问题状况和解决进展;
面向客户业务服务,提供基于Web多种视图,包括端到端服务监控层次模型,和监控构成服务系统各个组件;
面向业务管理宗旨是通过全面业务系统和IT框架系统监控,增强管理,提高管理水平,并最终保障业务成功运行。
实现IT基础框架端到端监控和与业务关联。
(二)运维系统设计目标
●确保IT流程支撑业务流程,整体提高业务运营质量。
●提高用户满意度,提升企业社会效益和效益。
●实时实现对从IT基础架构到应用系统端到端运行情况进行监控。
●提供从业务角度分析IT基础设施(包括系统、网络、数据库、应用服务器)能力。
●建立完善支持服务流程和支持模式。
●建立满足服务水平要求服务水平管理。
(三)基于ITIL理念建立规范处理流程
在ITIL中要建立许多管理流程,在实际应用中,我觉得至少需要建立下面几个流程:
(1)问题管理
建立并应用问题处理程序,以实现对问题诊断和确定解决问题方案,并将解决方案记录在配置数据库中,针对服务水平管理确定并实现内部问题升级时间标准。
(2)资产管理
对于每天发生事件,问题,变更处理,新服务配置,各个组件信息,资产管理职责就是提供和维护这些信息,它是与服务管理相关最重要任务之一。
(3)HelpDesk管理
担当服务中与业务部门和客户主要接触点(point-of-contac)。
存储事件,确定问题严重级别,综合支持团队努力,确保及时准确地解决问题,并提供SLA统计,证明能够达到预期服务级别。
来源:
岁月联盟-中国网络安全门户网站
(4)变更管理
保证清楚了解变更针对一个服务中任何组件影响,并保证对服务水平影响最小,变更管理包括SLA文档和服务目录变更,以及组织变更和针对软件和硬件变更。
(5)故障管理
故障管理主要目标是尽可能快地恢复服务至服务级别协议(SLA)要求水准,尽可能减少故障对服务运营不利影响,以确保最好服务质量和可用性级别。
(四)运维系统组成
在一般运维系统中,需要一个大房间,在大房间中分成以下几个部分,每个部分都扮演相应角色:
第一层:
大屏幕分别显示有,基于业务视图,基于IT基础架构视图,基于视图,当故障出现时能够以特定颜色显示出来,同时可以显示一些公司需要直观显示数据。
第二层:
服务台(HelpDesk),主要提供:
●接受客户请求
●提供客户使用上问题咨询
●提供客户业务咨询
●记录并跟踪故障和客户意见
●根据知识库,尽快解决问题
●及时通知客户其请求当前状况和最新进展
●根据服务级别协议,初步评估请求,经历解决它们或安排给一线工程师解决
"岁月联盟"
●对客户故障从提出到验证及终止整个过程进行管理
●协调一线工程师和值班工程师
第三层:
一线支持工程师
●根据提供监控界面迅速定位问题并解决
●对于临时解决办法,还要把故障提交给问题处理流程
●根据服务级别,在问题未能及时解决时及时把问题提交给值班经理
第四层:
值班经理个人
●协调技术专家,根据服务协议时间要求,解决问题
●协调供应商,根据维护协议要求,解决问题
(五)运维系统功能设计
基于ITIL设计理念,我们把ECC实时监控部分设计成层次架构,如下图:
1.事件采集层
在最基本层次上,需要从被管理IT基础设施中获取广泛,实时数据,能够从网络、系统和应用层中捕获、汇聚并处理大量数据能力,我们通常称之为事件管理。
事件管理是整个面向服务管理系统核心,在数据采集阶段(包括网络、系统和应用层)采集信息,只有经过事件管理服务器,转变为统一格式,再流入智能化管理层,实现事件相关性分析。
内容来自"岁月联盟"
数据采集层是整个管理系统进行信息处理和智能化分析基础,因此需要充分获得准确、实时、完整管理数据。
在数据采集层,应该进行原始数据过滤、分类、分级等预处理操作,从中提炼出重要管理信息。
数据采集层获取信息实时和准确性,以及对原始信息预处理能力,将在很大程度上影响整个管理系统管理能力和效率。
2.事件处理层
数据收集仅仅是实现业务和通信及IT基础框架管理基础,需求最简单先决条件。
实现真正基础框架智能化意味着能够从整个基础框架产生大量数据中,通过采用一系列先进过滤,事件压缩,关联和诊断技术进行处理,抽取管理人员需要关注重要信息。
好基础框架监控管理系统能够将网络以至IT系统专业化知识融入在管理系统中,根据基础框架层各组成资源特点,从原始管理数据中智能分析系统真实状况,判断资源实际运行状态,分析故障发生根源并提出解决建议,使运维人员解决问题更加准确和有效。
一般包含以下功能:
(1)事件存储
将运行维护数据与数据分开存储,以确保管理效率.一般管理信息需要保留6个月甚至更长数据,以进行统计分析和存档,而在日常运行管理中,一般只需要查看最近一周甚至更短信息,一般采用运行数据与实时数据分开存储,运行数据采用高速内存数据库保证事件处理实时性,历史数据采用稳定关系型数据库保证事件存储可靠性和容量,这种结构使事件处理更加合理。
(2)事件压缩
IT资源事件中有很多重复事件,尤其在系统组件不稳定时,有可能会产生事件风暴。
过多事件会使管理员桌面上罗列大量事件条目,管理员无法获取真正需要关注重要事件,因此对重复事件进行合并使事件条目清晰,帮助管理员快速找到需要处理故障是非常重要。
重复事件压缩就是这样一个过程:
通过将从下层数据源所报告相似事件加以汇总,合并成一条事件,该事件内容包含了该事件重复次数以及发生起止时间。
(3)事件自动化处理
可以对各类事件信息进行逻辑判断,并做出相应动作,如及时删除不必要信息、完成不同事件之间关联、对严重事件采用明显声音报警、自动升级警告级别如果严重事件在一段时间内没有人响应、发送邮件进行自动通知等等。
(4)可用性方法
根据故障树分析FTA(FaultTreeAnalysis)方法,结合可用性计算方法,来计算服务可用性。
组件可用率计算方法:
组件可用率=(AST-DT)/AST*100%
AST——约定服务时间(Agreedservicetime)
DT——在约定时间内实际停机时间(Actualdowntime)
(5)可用性评估指标
通常我们采用下面几个指标来对可用性进行评估:
[信息来源"岁月联盟"]
①平均无故障时间(MTBF-MeanTimeBetweenFalures),它指是从某次事故修复到下次事故发生之间平均间隔时间,又称为正常运营时间(Uptime),它是用来描述服务可靠性。
②平均修复时间(MTTR-MeanTimeToRepair),它指是事故发生到服务恢复之间平均间隔时间,又称为停机时间(Downtime),它是用来描述服务可维护性和适用性。
3.业务关联层
业务影响分析,基于CFIA等分析法,定义事件和业务系统关联关系,自动找到故障所影响业务和服务,并根据关联结果创建新服务事件报警。
4.呈现层
提供基于Web方式监控视图,可以为不同管理人员提供不同监控窗口,以实时监控相关事件信息,事件窗口可以通过分组显示不同类型、级别、源、时间段内事件信息,管理员可以一目了然看到目前是否有事件发生,级别如何,并对事件进行一系列处理工作。
5.报表处理层
各种监控信息存储在关系数据库中,可以利用报表工具进行信息统计分析,生成各种格式报表。
报表应用可以与实时故障监视环境实现无缝集成,为运维提供一种长期综合视图。
报表应用帮助管理人员了解其各种基础设施在各种不同期间行为特点,从不同设备、系统和服务层次上对各种基础架构长期行为特点进行查看和分析。
(六)运维系统设计要求
1.基于ITIL框架设计,结构先进
运维系统设计要求基于ITIL框架,ITIL框架是最佳实践结晶。
2.可扩展性
如果需要一个新展示层或者事件关联,必须能够无缝扩充或集成到现有管理框架中。
为了保证随着系统架构延伸扩展而产生越来越多事件信息处理性能,在任意一个层次增加都不会影响整体框架结构。
3.集成性
集成现有以及未来可能要扩充设备和管理系统。
如果需要增加新监控对象,则最多只需简单地增加一个探针,或增加一个新关联层。
4.集中化
已经处理事件(重复压缩和事件关联)集中在一个地方。
因此管理员可以共享整个系统事件信息。
5.关联
因为事件关联功能在整个系统管理中是分布,因此为一个新服务增加新事件关联是非常容易。
6.冗余
数据显示层和关联层设计将考虑冗余设计,当任何一个服务器失败,数据采集层探针将会自动切换到另一个服务器。
综上所述,运维系统设计,主要从两个方面来实现,一是管理流程设计,二是系统监控设计,通过上面描述,我们看到,系统监控作用:
当系统出现故障时通过对系统各个层面监控以及事件关联,能够保证快速定位故障,从而快速解决故障,使得故障对业务影响降到最小,同时通过对系统性能监控,进行预警,可以做到防范于未然,防范故障于萌芽状态,保证系统可用性;而规范管理流程,保证所有问题在每一个阶段得到有效处理。
来源:
岁月联盟-中国网络安全门户网站
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 维系 统建 初探