新一代智能化运维管理解决方案V3.0-2017x.docx
- 文档编号:2025128
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:54
- 大小:8.08MB
新一代智能化运维管理解决方案V3.0-2017x.docx
《新一代智能化运维管理解决方案V3.0-2017x.docx》由会员分享,可在线阅读,更多相关《新一代智能化运维管理解决方案V3.0-2017x.docx(54页珍藏版)》请在冰点文库上搜索。
新一代智能化运维管理解决方案
V3.0-2017
目 录
1.运维现状与挑战 4
2.平台总体架构 5
3.平台详细方案 6
3.1.资源配置管理(CMDB) 6
3.1.1.配置数据建模 6
3.1.2.配置数据采集 7
3.1.3.配置数据维护 12
3.1.4.配置数据应用 15
3.2.集中监控管理 18
3.2.1.网络监控管理 19
3.2.2.系统应用监控 20
3.2.3.用户体验监控 26
3.2.4.集中告警管理 32
3.3.运维操作自动化 35
3.3.1.自动化平台 37
3.3.2.运维自动化场景 40
3.3.3.作业调度管理 46
3.4.运维管理流程 47
3.4.1.ITIL流程 47
3.4.2.工单处理 48
3.4.3.流程模型 49
3.5.运维数据分析 50
3.6.运维可视化展示 51
3.6.1.大屏可视化展示 51
3.6.2.可视化设计平台 52
3.7.运维管理门户 53
3.7.1.内部运维门户 53
3.7.2.移动运维中心 53
4.平台建设收益 54
1.运维现状与挑战
随着全球经济一体化的不断深入,尤其是在国际金融危机之后,全球经济进入了深度调整的新阶段。
以互联网、云计算、大数据、物联网为代表的现代信息技术革命催生了新型的数字经济。
目前,数字技术正广泛应用于现代经济活动中,提高了经济效率、促进了经济结构加速转变,正在成为全球经济复苏的重要驱动力。
数字经济的最大特点就是基于互联网,企业在转型的过程中也必须采用适用于互联网化的技术路线、组织构建、及商业模式,通过学习和借鉴互联网经验快速转型。
针对当前市场的变化趋势,国家提出了“互联网+计划”的国家战略,在此引领下,各行业也发布各自领域的互联网+战略,包括:
互联网+金融、互联网+政务服务、互联网+人社、互联网
+农业等。
组织战略的变化带来了信息技术的快速发展,当前私有云数据中心建设迎来新的建设浪潮,并且以大数据技术带动了行业应用的全面推进。
运维团队也从传统的后台走向业务发展的前台,从角色上实现大跨越,成立组织互联网+战略推进的新动力。
在数字化经济及云计算、大数据的新技术的影响下,组织运维工作遇到了新的挑战,主要包括:
1、数据中心进入双态模式,数据中心逐步向软件定义数据中心(SDDC)进行演进,并呈现出明确的双态(Bimodal,Gartner)特征。
2、软件定义数据中心(SDDC)对运维的挑战,软件定义数据中心(SDDC)要求具备简化并自动化的运维管理,并支持应用和基础架构交付自动化。
3、互联技术架构应用对运维的挑战,企业信息化建设中,新型互联网开放技术架构的广泛应用,对各类新技术的运维支持成为当前迫切的需求。
4、DevOps对运维的挑战,DevOps理念的快速推广,促进了业务与技术的加速融合,及开发与运维的加速融合,对运维管理尤其是自动化运维提出更高的要求。
5、运维业务模式转变的挑战,在互联网+背景下,数据中心运维业务模式发生了明显转变,技术与业务、开发与运维加速融合。
组织数据中心运维正体现出“一体化、自动化、智能化”的特性,一体化实现了运维数据与过程的融合贯通,自动化提升了运维的效率与规范化,智能化则帮忙运维从被动状
态向主动、预知状态进行转变。
智能化运维要求运维系统能够快速适用运维业务的的变化,能够达到软件定义运维(SDO,SoftwareDefinitionOperations)的能力。
软件定义运维的落地则需要通过平台化运维系统的支撑,并需要优秀的自定义、可扩展、可伸缩能力,以适应组织运维业务的不断演进变化的需要。
2.平台总体架构
优云运维管理平台采用微服务、大数据等互联网技术架构,统一平台PaaS层,产品采用平台+APP模式,平台提供统一采集操作层和资源库,应用APP基于平台服务和组件规范,可不断丰富扩展。
平台提供服务门户作为统一的运维入口,实现各类运维管理场景。
附图1. 平台架构设计
n配置管理库(CMDB)
CMDB实现对数据中心所有IT资源的配置信息管理,保证数据中心中配置项的完整性和精准性,构建运维管理元数据,并为监控、运维流程提供资源数据。
n集中监控管理
系统提供云数据中心基础资源、业务应用、用户体验全方位监控,同时提供集中的监控告警管理及监控性能数据展示。
n运维自动化管理
系统提供面向于服务器运维自动化,提升运维操作效率、降低人工操作风险。
n运维管理流程
系统提供基于ITIL的规范化运维管理流程,建立基于服务目录的对外服务交付过程,同时支持面向于云资源自动化交付管理。
n可视化展示与分析
系统提供美观形象的可视化展示平台,帮忙运维管理人员准确掌握IT运行态势与运维服务水平。
n运维管理门户
提供了运维管理门户网站、个人工作台等形式的面向外部最终用户自服务及内部人员人性化的运维界面。
此外,平台还预留多种标准接口及开放的接口体系,实现和第三方系统的功能或数据集成对接,包括云管理平台、PKI认证、短信系统、邮件系统等。
3.平台详细方案
3.1.资源配置管理(CMDB)
需实现对数据中心的物理资源、虚拟资源、软件资源及应用系统等对象的配置信息,包括配置模型的管理、配置信息的发现、配置关系的梳理、配置数据的管控,形成数据中心的配置管理库CMDB,提供统一、可信的配置数据应用支撑。
3.1.1.配置数据建模
配置管理库(CMDB)系统应当建立覆盖数据中心所有的IT资源的配置管理模型,易于理解和使用,并支持用户进行快速扩展,建立契合实际需求的配置模型。
配置模型应当能够覆盖现有网络与安全设备、服务器、存储等硬件设备,及数据库、中间件、应用软件及业务系统等软件设施,至少包括以下配置项类型:
1)机房设施,包括:
机柜、UPS、精密空调、配电柜、视频摄像头、传感器等。
2)网络与安全设备,包括:
防火墙、路由器、交换机、IDS/IPS、负载均衡器、安全网关等;
3)服务器,包括:
小型机、刀片服务器、PC服务器等;
4)存储设备,包括:
存储整列、光纤交换机、磁带机、
5)操作系统,包括:
Windows、AIX、HP-UNIX、各类Linux等;
6)数据库,包括:
DB2、Sybase、Informix、Oracle、Mysql、MongoDB、Cassandra等;
7)中间件,包括:
Weblogic、Websphere、TUXEDO、MQ、CICIS、Apache等;
8)虚拟化,包括:
VMWARE、华为、H3C、阿里云等;
9)应用软件,包括:
FTP、LDAP、AD、EmailServer等
10)业务系统,主要包括:
OA、ERP、CRM、BI等;
配置库应支持灵活的动态建模能力,可根据IT架构分层,自由、灵活的定义和调整配置模型,支持配置项类型、配置关系、配置表单的建模能力,所有设计与调整都基于可视化界面。
附图2. CMDB数据建模
配置建模能力包括资产配置项建模、关系建模以及字典目录管理和配置表单管理。
3.1.2.配置数据采集
系统支持多种资产配置信息的发现和收集手段,包括:
全网扫描、配置发现、批量导入、第三方系统的集成接口等。
3.1.2.1.全网资源扫描
系统应当提供网络扫描工具,发现网络当中的所有IP资源,并将发现的资源标识为服务器或网络设备,发现结果进入IP地址库。
应当同时扫描任务的定期执行,及时发现网络当中的IP黑户。
3.1.2.2.配置采集发现
系统应当提供配置深度发现工具,发现对象包括网络设备、服务器、操作系统、数据库、中间件、虚拟化等,并支持配置项关系的发现。
配置数据收集维护利用了多种技术手段来保证各个来源的数据准确性和完整性,系统支持向导式发现配置功能,支持
ICMP、TCP、SNMP、WMI、Telnet、SSH、CCLI、Http、DNS、JDBC、JMX、VMWare、libvirt
、XenAPI等多种协议来实现配置信息的自动发现,用户可以通过发现配置向导来实现发现范围、发现参数的设置,构建合理的配置发现策略,同时支持将发现结果导入到配置管理库中。
附图3. 自动发现配置
q发现过程
系统提供简洁直观的发现进度,实时显示当前发现进度、发现状况概要,用户可以直接观察发现过程,在发现过程中提供实时的发现信息反馈,并支持停止操作。
在发现过程中,系统能够对当前发现的资源数量按照类别进行分享统计和展现,用户可以直观了解当前发现了多少类、多少个资源信息。
对于发现日志,系统支持日志的过滤展现,能够按照过滤规则向用户展现调试、信息、警告、错误4个级别的日志信息,便于后期对配置的发现情况进行回顾和分析。
q发现结果
当发现完成或者用户终止发现时将进入浏览发现结果界面,浏览并分析发现结果,以决定后续动作,对于发现结果可以放弃并重新发现,也可以放入CMDB中进行管理。
系统支持以列表的形式来展现配置发现结果,包括IP、类型、名称等信息,并能够对发现结果进行过滤,提供配置项详情的查看(包括自身和子部件的配置信息)。
附图4. 配置发现结果
对于发现结果支持导出,能够通过EXECL导出并保存。
下方是Linux服务器自动发现的配置属性。
3.1.2.3.配置项批量导入
附图5. 自动发现属性(Linux)
为了方便使用和维护,系统支持配置项信息的EXECL格式导入和导出功能,可以根据管理需要,选定所需的配置项进行导出;同时也可以将编辑好的EXECL文件直接导入
到系统中,实现配置信息的批量导入。
3.1.2.4.第三方数据集成
附图6. 数据批量导入
系统支持通过与第三方系统集成实现配置数据的导入。
如与华为云平台进行集成获取云资源的配置信息。
3.1.2.5.配置数据调和
附图7. 与第三方系统集成获取配置数据
从不同采集源获取到相同的资源数据时,系统能够识别并合并,并与配置库中标准数据进行比对,判断是否产生变化,如果产生变化则产生差异报告,并发出通知告知管理员进行变更审核,避免出现重复或不一致的配置信息。
附图8. 配置调和
3.1.3.配置数据维护
附图9. 配置调管理界面
数据维护主要针对采集入库的数据进行综合管理,包括数据调和、分区管理、审核管理以及权限管理。
3.1.3.1.配置分区管理
系统支持数据分区管理,能够按照用户的地域、组织机构分布等因素对配置项进行分区,建立不同的管理域,各机构分别管理自己管辖范围内的配置。
系统采用建立配置维护圈、社交协作化的思路,通过文化引导和规范约束结合的方法,
促进配置维护圈的活跃、保证配置准确率,激发用户内在动力来做好配置维护。
主要有圈子管理、人工配置维护、仓库数据的认领、配置评论、配置审核以及配置的动态展示等。
1、支持按数据维护职责建立独立的数据维护工作区,各工作区对各自团队负责管理的资源进行认领并负责对该数据的维护管理。
附图10.CMDB维护圈创建
附图11.资源数据认领
2、支持数据维护者根据自身维护需要创建过滤标签,快速查阅自身所关心的配置数据;
3、支持对配置数据开放式的评论、点赞,提升数据维护的积极性与团队协作。
3.1.3.2.配置审核管理
附图12.数据开放式的评论、点赞
配置数据的变更生效由工作区负责人审核决定,确保变更的快捷有效。
变更审核时支持查看配置数据变化报告。
附图13.配置数据变更审核
支持对工作区内所有资源的数据变化时,可实时通知数据的订阅者或第三方系统,并告知变化内容。
3.1.3.3.配置变更跟踪
系统支持实时数据跟踪功能,能够跟踪配置和资产的当前状态信息,针对配置管理,系统能够支持配置项的版本跟踪和维护,当配置项产生新的版本时,系统能够自动跟踪、
记录、更新并保存原始版本记录,对于存在多个版本的配置信息,系统还支持版本之间的比较。
3.1.3.4.配置权限管理
附图14.配置数据变更动态
数据维护工作区拥有独立的团队成员管理权限,支持成员增加、删除;
3.1.4.配置数据应用
3.1.4.1.配置应用场景管理
支持按应用场景建立配置数据应用区,支持从统一配置库当中选择所需的配置数据,并支持基于配置数据标签进行数据的批量导入。
数据应用区中,不仅能查看配置项数据,还能根据管理创建所需要的配置关系,同时也查看到其他团队所创建的配置关系。
附图15.配置关系展示
数据应用区可以被监控系统、运维流程等模块进行调用,用于各类配置数据应用场景分析。
3.1.4.2.配置数据查询
系统提供了全文检索的能力,能够对所有配置信息通过全文检索的方式进行数据查询。
全文检索支持对配置信息的附件信息进行检索,同时系统还提供了最近搜索记录功能,能将最近、常用的搜索的关键字进行记录,通过点击快速进行检索。
附图16.数据全文检索能力
3.1.4.3.配置与流程关系管理
系统支持和流程进行关联,一方面可以直接从配置项发起相关流程工单,如事件、变更等;另一方面由变更流程引起的配置项变化,再变更流程工单完成时自动进行变更审核;对于和配置项相关的工单,在浏览配置项时均可查看其所关联的工单信息,如该配置项发生过哪些事件工单、有哪些变更等。
用户还可以通过在配置管理界面直接发起运维工单,就该配置项开启流程运转。
3.1.4.4.配置关系管理
附图17.配置项与工单关联
系统支持配置关系管理,提供直观的关系列表和可视化视图,通过配置关系管理,可以帮助管理人员快速了解该配置项与其他配置项之间的关联关系,从而帮助管理人员快速评判该配置项的重要程度和依赖关系。
附图18.配置关系展示
当该配置项出现故障能够快速评判其影响范围及影响程度。
3.2.集中监控管理
要求能够实现对现有的网络设备、主机/虚拟机、数据库、中间件、存储、业务应用等各类云资源的监控管理,提供面向业务应用用户体验监测能力,并提供故障告警、性能数据、监控展示的集中化管理。
附图19.全方位监控工具体系
3.2.1.网络监控管理
网络监控工具面向网络运维人员,为其提供相应的技术工具,实现网络拓扑结构、网络故障、网络性能、网络配置的实时监控,及时发现网络故障、流量异常,提高网络管理效率,确保网络的安全性和可靠性。
系统支持大规模、分布式管理需求,能够适合大规模、分域、分级等管理特点。
支持多层级联部署,满足网络隔离以及单向通信的需要,以及满足大规模部署的要求。
3.2.1.1.网络拓扑发现
系统支持自动网络发现能力,能够实现对华为、华三、锐捷、神码、中兴、CISCO等主流品牌设备自动发现,支持局部发现某个设备的邻居设备,并支持自动网络拓扑构建。
系统支持全局网络拓扑与分层网络拓扑,全局拓扑显示所有的网络设备及关系。
分层网络拓扑支持通过拓扑逐层建立组合的方式,支持构建骨干网拓扑展示,也可以根据业务管理场景进行拓扑构建。
附图20.网络拓扑管理
网络拓扑支持良好的拓扑交互,通过高亮显示指定设备及相关设备,能快速分析设备间的关系;也支持放大、缩小等地图式操作功能。
支持在在拓扑上显示设备与链路的性能负荷。
支持通过IP、设备名等关键字快速搜索与定位设备。
3.2.1.2.网络设备监控
系统支持发现与监测主流厂商的网络设备,设备性能监控指标包括:
在线状态、Ping延时、CPU、RAM、端口状态、端口速率、端口包速、端口丢包率、端口错包率等。
3.2.1.3.网络链路监测
系统支持对网络链路的发现与监测,能够自动发现二层、三层网络链路,并支持对网络链路可用状态、丢包率、包延时的监测。
3.2.1.4.网络事件管理
系统支持网络设备发出的SNMP Trap与Syslog告警事件,并对进行告警事件进行事件关联压缩,能将对称的事件或重复的事件压缩,在界面上只显示事件的最新信息,并能点击查询事件的相关信息
系统应支持事件的关联分析,并提供实时事件浏览界面,以对实时关注当前系统中发生的各类事件,以便对故障采取快速响应行动。
3.2.2.系统应用监控
系统支持数据中心计算、存储、网络等基础资源以及对运行于基础资源上的数据库、中间件等平台环境的监测。
系统应具备大规模、分布式管理能力,能够适应大规模资源管理要求,系统的部署不会对现有环境产生影响。
3.2.2.1.服务器硬件监控
系统对IBM、DELL、HP、华为、浪潮、联想等国内外主流品牌的服务器硬件监控,支持通过IPMI协议实现监测,监控指标包括:
服务器电流、传感器风扇、传感器状态、传感器温度、服务器电流、服务器电源功率等。
3.2.2.2.存储监控监控
附图21.服务器硬件监控
系统支持对主流存储设备的监控,包括:
HP、IBM、EMC、华为、HDS、Netapp等,技术手段包括:
SMI-S、SNMP。
监控指标包括:
存储阵列、物理磁盘、存储池、控制器、存储卷、存储卷组等。
附图22.存储设备监控
若设备支持,支持监控设备环境参数,如温度、风扇、电源电压等。
并能支持基于
SNMPTrap、Syslog方式接收存储设备主动告警。
3.2.2.3.虚拟化监控
系统支持对VMWare虚拟化平台的监控管理,监控指标包括:
虚拟机集群、物理机
CPU、物理机内存、物理机磁盘、虚拟机CPU、虚拟机内存、虚拟机磁盘等。
3.2.2.4.IaaS云管理平台监控
附图23.虚拟化监控
系统支持通过与IaaS云管理平台进行对接实现云资源监控,支持Openstack(华为云、浪潮云、曙光云等)、阿里云等云平台监控。
3.2.2.5.Docker虚拟化监控
附图24.云平台监控
除虚拟化及IaaS云平台监控之外,同时支持对新兴的Docker监控。
3.2.2.6.操作系统监控
附图25.Docker监控
可监测众多的服务器操作系统,包括:
Windows、Debian、Ubuntu、CentOS、Redhat、Mac OSX、Fedora、CoreOS、AIX、HP-
UNIX。
支持通过SNMP、CLI、WMI、代理Agent方式监控服务器,Linux/Unix系统的CLI监控方式应当同时支持SSH及Telnet两种方式。
a)可自动监测服务器的各类性能指标,包括:
CPU、RAM、磁盘、负载、文件系统、网络、监测、服务等指标;
附图26.操作系统监测
b)可自动监测服务器重要事件,包括:
WindowsEvent、Syslog;
c)可监测一些常见的系统服务,包括:
HTTP、DNS、TCP、SSH、SNMP、WMI;
3.2.2.7.中间件监控
系统支持对各类中间件进行监控:
a)Web服务中间件,包括:
Apache、Tomcat、IIS、Nginx、JBoss、Lighttpd、Weblogic、Websphere;
附图27.中间件监测
b)缓存中间件,包括:
Redis、Memcached;
c)消息中间件,包括:
ActiveMQ、RabbitMQ、Kafka;
d)大数据中间件,包括:
etcd、HAProxy、Elasticsearch、Hadoop(HDFS、MapReduce、Zookeeper);
3.2.2.8.数据库监控
系统支持传统关系型数据库与NoSQL数据库的监控:
a)可监测各类传统关系数据库,包括:
MySQL、PostgreSQL、SQLServer、DB2、Oracle、Sysbase、Informix
附图28.Mysql监测
b)可监测各类NoSQL数据库,包括:
Cassandra、MongoDB
附图29.Cassandra数据库监控
附图30.MongoDB数据库监控
3.2.2.9.大数据架构监控
当前云数据中心在大数据方面发展势头明显,大数据云成为云数据中心的主要研究方向之一,同时也是云数据中心与实战结合的关键点。
在大数据云的建设方面Hadoop技术占据的重要角色,运维系统支持面向Hadoop核心组件
(HDFS、MapReduce、Yarn、Zookeeper)及内部消息中间件(RibbitMQ)的监控。
附图31.Hadoop2的监控支持情况
以HDFS为例,监控指标包括:
监控指标应当包括:
总容量、损坏块、数据节点
(DataNode)相关指标、HDFS空闲空间、HDFS使用磁盘空间、HDFS使用空间总数、丢失磁盘块数量、主节点(NameNode)相关指标、复制的磁盘块总数。
3.2.3.用户体验监控
附图32.大数据监控架构
用户体验监测要求实现对业务系统的应用前端(WEB\APP)的运行性能、故障、用户
操作体验、及用户行为的监控分析,为应用前端性能优化、故障处理、用户体验优化、应用评估提供数据支撑。
监控数据方式应当采用对应用尽量小的方式,应采用轻量级的插件,不应对应用业务逻辑进行改造。
系统应具有良好的水平扩展能力,能够支持未来增加被监控业务系统的性能要求。
3.2.3.1.应用总体分析
系统应当支持前端应用运行分析,展示应用总体访问情况,支持按访问用户数、操作数、错误数进行排序,方便领导和管理人员了解某项应用系统的访问分布情况,对应用的关心程度和使用情况等进行全面的分析,掌握热点应用、僵尸应用。
附图33.应用访问总体分析
支持分析应用的界面性能、运行错误、用户轨迹、访问热力图等,并提供性能、错误、用户访问等主题数据看板,展示数据变化趋势。
附图34.应用访问概况
用户访问热图支持展示用户访问业务系统的所关注页面区域,了解热点页面与热点操作。
3.2.3.2.前端性能分析
附图35.用户访问热图
系统支持运营商、地域、浏览器、操作系统、访问页面/操作等多维度性能分析。
附图36.应用前端性能分析
系统支持监测页面各组件(包括Html文档、JS文件、CSS、Ajax资源、图片、字体等)加载性能:
包括卸载、重定向、应用缓存、DNS、TCP、请求、响应、组件加载、渲染等全过程耗时情况。
支持监测Ajax请求的请求、回应、回调耗时,并支持请求错误码采集。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新一代 智能化 管理 解决方案 V3 2017