企业AIOps智能运维方案白皮书.docx
- 文档编号:1907656
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:43
- 大小:935.97KB
企业AIOps智能运维方案白皮书.docx
《企业AIOps智能运维方案白皮书.docx》由会员分享,可在线阅读,更多相关《企业AIOps智能运维方案白皮书.docx(43页珍藏版)》请在冰点文库上搜索。
企业AIOps智能运维方案白皮书
43
目录
背景介绍
4
组织单位
4
编写成员
5
发起人
5
顾问
5
编审成员
5
本版本核心编写成员
6
1、整体介绍
8
2、AIOps目标
10
3、AIOps能力框架
11
4、AIOps平台能力体系
14
5、AIOps团队角色
17
5.1运维工程师
17
5.2运维开发工程师
17
5.3运维AI工程师
17
6、AIOps常见应用场景
19
6.1 效率提升方向
21
6.1.1智能变更
22
6.1.2智能问答
22
6.1.3智能决策
23
6.1.4容量预测
23
6.2 质量保障方向
24
6.2.1异常检测
24
6.2.2故障诊断
25
6.2.3故障预测
25
6.2.4故障自愈
26
6.3成本管理方向
26
6.3.1成本优化
26
6.3.2资源优化 27
6.3.3容量规划 28
6.3.4性能优化 28
7、AIOps实施及关键技术 29
7.1数据采集 29
7.2数据处理 30
7.3数据存储 30
7.4离线和在线计算 30
7.5面向AIOps的算法技术 30
说明:
31
附录:
案例 33
案例1:
海量时间序列异常检测的技术方案 33
1、案例陈述 33
2、海量时间序列异常检测的常见问题与解决方案 33
3、总结 34
案例2:
金融场景下的根源告警分析 35
1、案例概述 35
2、根源告警分析处理流程 35
3、根源告警分析处理方法 37
4、总结 39
案例3:
单机房故障自愈压缩 40
1、案例概述 40
2、单机房故障止损流程 40
3、单机房故障自愈的常见问题和解决方案 41
4、单机房故障自愈的架构 43
5、总结 44
背景介绍
AIOps即智能运维,其目标是,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低IT成本,并提高企业的产品竞争力。
Gartner在2016年时便提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。
AIOps目前在国内外领先的互联网企业开始被逐渐应用,也是近年来国内外被普遍看好的新技术。
为了让国内众多互联网中小企业、特别是传统企业可以共享、复用国内外顶尖互联网的AIOps技术和能力,并能够更快捷的进行AIOps相关产品选型,因此开展国内外第一个AIOps白皮书及相关标准制定工作。
AIOps标准将分成两大类,分别适用于企业内部的AIOps能力建设与评估、及企业购置相关AIOps产品的认证评估,使得AI真正落地应用于运维,造福于企业。
1、整体介绍
AIOps,即ArtificialIntelligenceforITOperations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。
这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系。
自动化运维因此应运而生。
其基于用可被自动触发的、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,提高运维效率。
总的来说,自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。
随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。
自动化运维的不足,日益凸显。
DevOps的出现,部分解决了上述问题。
其强调从价值交付的全局视角,端到端打通软件生命周期,建立基于微服务的单件流式的流水线。
但DevOps更强调横向融合及打通,较低阶段的DevOps无力改变“基于认为指定规则”的既定事实。
AIOps是DevOps在运维(技术运营)侧的高阶实现,两者并不冲突。
此部分可具体参考《研发运营一体化能力成熟度模型》。
AIOps不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。
AIOps在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。
AIOps基于自动化运维,将AI和运维很好的结合起来,其需要三方面的知识:
1)行业领域知识:
应用的行业,如互联网、金融、电信、物流、能源电力、工业制造和智慧城市等,并熟悉生产实践中的难题;
2)运维场景领域知识:
如指标监控、异常检测、故障发现、故障止损、成本优化、容量规划和性能优化等;
3)机器学习:
把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。
AIOps和DevOps两者并不冲突,企业级DevOps涵括包括运维在内的整个软件生命周期,AIOps是企业级DevOps在运维(技术运营)侧的高阶实现。
AIOps是运维的发展必然,是自动化运维的下一个发展阶段。
Gartner相关报告预测
AIOps的全球部署率将从2017年的10%增加到2020年的50%。
其应用行业,除了互联网以外,还包括高性能计算、电信、金融、电力网络、物联网、医疗网络和设备、航空航天、军用设备及网络等领域。
本白皮书综合国内领先的互联网公司、金融企业及AIOps解决方案提供方的相关经验,给出了一种企业级AIOps的AIOps理论方法和生产实践,希望能帮助贵司快速、成功实施
AIOps。
本白皮书聚焦AI应用到Ops领域,不涉及自动化运维相关内容。
2、AIOps目标
AIOps,通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。
具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:
“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。
AIOps的目标是,利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。
3、AIOps能力框架
AIOps的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的运维AI“学件”,再由多个具有AI能力的单运维能力点组合成一个智能运维流程。
AIOps能力框架基于如下AIOps能力分级。
AIOps能力分级可具体可描述为5级(图-2):
1)开始尝试应用AI能力,还无较成熟单点应用
2)具备单场景的AI运维能力,可以初步形成供内部使用的学件
3)有由多个单场景AI运维模块串联起来的流程化AI运维能力,可以对外提供可靠的运维AI学件
4)主要运维场景均已实现流程化免干预AI运维能力,可以对外提供可靠的AIOps服务。
5)有核心中枢AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,可实现多目标下的最优或按需最优。
图3-1AIOps能力分级
学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件(或称学件),则是在类似API的基础上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中。
这个智能规则是在一定量的数据下学习而来的,且具有“可重用”,“可演进”,“可了解”的特性,既可共享由专家利用数据训练的算法,又可保护数据和隐私。
“学件”(Learnware)一词由南京大学周志华老师原创,学件(Learnware)=模型
(model)+规约(specification),具有可重用、可演进、可了解的特性。
很多人可能在自己的应用中已经建立了类似的模型,他们也很愿意找到一个地方把这些
模型分享出去。
这样一来,一个新用户想要应用,也许不用自己去建立一个,而是先到“学件”市场上找一找有没有合适的,拿来直接或修改后使用。
学件基于专家基础上建立,所以比较容易得到专家级的结果,又因为共享出来的是模型,所以避免了数据泄露和隐私泄露的问题。
基于上述AIOps能力分级,对应的AIOps能力框架如下。
图3-2AIOps能力框架
相关关键运维场景的AIOps演进如下。
2
图3-3关键运维场景的AIOps演讲
2
·“可重用”的特性使得能够获取大量不同的样本;
·“可演进”的特性使得可以适应环境的变化;
·“可了解”的特性使得能有效地了解模型的能力。
4、AIOps平台能力体系
AIOps工作平台能力体系主要功能是为AIOps的实际场景建设落地而提供功能的工具或者产品平台,其主要目的是降低AIOps的开发人员成本,提升开发效率,规范工作交付质量。
AIOps平台功能与一般的机器学习(或者数据挖掘)平台极为类似,此类产品国外的比如
Google的AutoML(
图4-1AIOps平台功能模块
图4-2AI建模服务能力
如上图4-1、图4-2,具体的工具或者产品应具备以下功能或模块:
1)交互式建模功能:
该功能支持用户在平台上交互式的进行模型的开发调试,通过简单的方法配置完成模型的构建。
2)算法库:
用户可以在算法库中找到常见常用的算法直接使用,算法按照用途分类,以供用户方便的使用。
3)样本库:
样本库用于管理用户的样本数据,供用户建模时使用,支持样本的增删改查等基本操作。
4)数据准备:
该功能支持用户对数据进行相关的预处理操作,包括关联、合并、分支路由、过滤等。
5)灵活的计算逻辑表达:
在基本常用的节点功能之外,用户还需要自由的表达一些计算逻辑,该需求主要是通过让用户写代码或表达式来支持。
6)可扩展的底层框架支持:
平台本身要能够灵活的支持和兼容多种算法框架引擎,如
Spark、TensorFlow等,以满足不同的场景以及用户的需求。
7)数据分析探索:
该功能是让用户能够方便快捷地了解认识自己的数据,用户只有基于对数据充分的认识与理解,才能很好的完成模型的构建。
8)模型评估:
对模型的效果进行评估的功能,用户需要依据评估的结论对模型进行调整。
9)参数以及算法搜索:
该功能能够自动快速的帮助用户搜索算法的参数,对比不同的算法,帮助用户选择合适的算法以及参数,辅助用户建模。
10)场景模型:
平台针对特定场景沉淀的解决方案,这些场景都是通用常见的,用户可以借鉴参考相关的解决方案以快速的解决实际问题
11)实验报告:
模型除了部署运行,相关挖掘出来的结论也要能够形成报告,以供用户导出或动态发布使用。
12)模型的版本管理:
模型可能有对个不同的版本,线上运行的模型实例可能分属各个不同的版本,版本管理支持模型不同版本构建发布以及模型实例版本切换升级等。
13)模型部署应用:
模型构建完成后需要发布应用,模型部署应用功能支持模型的实例化,以及相关计算任务的运行调度管理。
14)数据质量保障:
全链路的数据监控,能够完整的掌控数据的整个生命周期,具备对丢失的数据执行回传补录的能力,保障数据的可用性。
5、AIOps团队角色
图5-1AIOps团队角色及和外部的协同关系
AIOps团队内部人员根据职能可分为三类团队,分别为运维工程师团队、运维开发工程师团队和运维AI工程师团队,他们在AIOps相关工作中分别扮演不同的角色,三者缺一不可。
5.1运维工程师
能从业务的技术运营中,提炼出智能化的需求点。
在开发实施前能够考虑好需求方案,规范数据格式。
前期可以通过仿真手法探索和验证方案可行性,起草合适的算法方案。
5.2运维开发工程师
负责进行平台相关功能和模块的开发,以降低用户使用门槛,提升用户使用效率,并且将运维数据工程师交付的数据通过友好的方式展现给用户。
根据企业AIOps程度和能力的不同,运维开发工程师中的运维自动化平台开发和运维数据平台开发的权重不同。
5.3运维AI工程师
针对来自于运维工程师和算法方案进行理解和梳理,完成最终落地方案的输出工作;在工程落地上能够考虑好健壮性、鲁棒性、敏捷性等,合理拆分任务,保障成果落地,以提升最终业务运营质量。
6、AIOps常见应用场景
AIOps围绕质量保障、成本管理和效率提升的基本运维场景,逐步构建智能化运维场景。
在质量保障方面,保障现网稳定运行细分为异常检测、故障诊断、故障预测、故障自愈等基本场景;在成本管理方面,细分为指标监控,异常检测,资源优化,容量规划,性能优化等基本场景;在效率方面,分为智能预测,智能变更、智能问答,智能决策等基本场景(注:
三者之间不是完全独立的,是相互影响的,场景的划分侧重于主影响维度)。
无论是效率提升,质量监控,还是成本优化,都离不开最基础的数据采集,它是整个
AIOp的基石。
AIOps提高运维生产力的一种方式就是把质量处理流程中的人力部分尽可能的都替换成机器来做。
在机器的分析过程中,系统运行过程中的每一个部件都需要数据支持。
无论是海量数据采集、还是数据提取方面都离不开大数据技术。
从数据采集的层面来看,运维数据的采集往往是实时的,数据采集端需要具备一定分析能力,综合考虑用户流量、隐私,服务器压力等多个因素,尽可能的降低无效数据的采集,增加有价值信息的上报。
从数据提取的层面来看,运维的数据是多样化的,历史数据,流数据,日志数据、网络数据、算法数据、文本和NLP文档数据,以及APP数据、浏览器数据、业务系统运营指标数据等,从这些海量的数据中提取出正真有价值的指标化数据并可视化是进一步分析决策的前提条件。
而成本优化和效率的提升同样离不开数据的支撑。
例如,开始实施成本优化的AIOPS前,需要尽可能多的收集目前的服务器,网络设备,应用服务,数据库等的性能信息,应用日志信息,tracing信息,以便对成本优化的效果进行评估。
例如,在搭建智能客服机器人的时候,就需要提供充足的问题库和相应的答案才能够建立好一个较优的模型。
图6-1AIOps常见应用场景枚举
以下为各个方向应用场景的能力描述。
效率提升方向
质量保障方向
成本管理方向
在这个阶段,尝试在变
在这个阶段,没有成熟
在这个阶段,运维的成
更,问答,决策,预测
的单点应用,主要是手
本管理方向还在尝试引
第一阶段
领域使用人工智能的能
动运维、自动化运维和
入人工智能,但是并没
(尝试应用)
力,但是并没有形成有
智能运维的尝试阶段,
有成熟的单点应用,这
效的单点应用,这个阶
这个阶段可以聚焦于数
个阶段可以聚焦于数据
段可以聚焦于数据采集
据采集和可视化
采集和可视化
和可视化
第二阶段
在这个阶段,在一些小
在这个阶段,在一些单
在这个阶段,在一些小
(单点应用)
的场景下,人工智能已
点应用的场景下,人工
的场景下,人工智能已
经可以逐步发挥自己的
智能已经开始逐步发挥
经开始逐步发挥自己的
能力,包括智能变更,
自己的能力,包括指标
能力,包括成本报表方
智能问答,智能决策,
监控,磁盘,网络异常
向,资源优化,容量规
智能预测
检测等
划,性能优化等方向
第三阶段
在这个阶段,人工智能
在这个阶段,人工智能
在这个阶段,人工智能
(串联应用)
已经将单点应用中的一
已经将第二阶段(单点
已经将单点应用中的一
些模块串联起来,可以
应用)中的一些模块串
些模块串联在一起,可
结合多个情况进行下一
联在一起,可以综合多
以根据成本、资源、容
步的分析和操作
个情况进行下一步的分
量、性能的实际状况进
析和操作,包括多维下
行下一步的分析和操作
钻分析寻找故障根因等
方向
第四阶段
在这个阶段,人工智能
在这个阶段,人工智能
在这个阶段,人工智能
(能力完备)
能力完备,已经可以基
已经基于故障的实际场
的能力已经完备,能够
于实际场景实现性能优
景实现故障定位,然后
实现基于成本和资源的
化,然后进行预测,变
进行故障自愈等操作。
实际场景实现成本的自
更,问答,决策等操作
比如根据版本质量分析
主优化,然后进行智能
改进的操作
推断是否需要版本回退,CDN自动调度等
第五阶段
在这个阶段,人工参与
在这个阶段,人工参与
在这个阶段,人工参与
(终极AIOps)
的成分已经很少,性能
的部分已经很少,从故
的成分已经很少,从成
优化等整个流程由智能
障发现到诊断到自愈整
本报表方向,资源优
大脑统一控制,并由自
个流程由智能大脑统一
化,容量规划,性能优
动化和智能化自主实施
控制,并由自动化和智
化性等整个流程由智能
能化自主实施
大脑统一控制,由自动
化自主实施
表6-1常见应用场景的分类分级能力概述
6.1效率提升方向
运维效率的提升是运维系统的主要目标之一,自动化运维带来的核心价值之一就是效率提升,而AIOps会推动运维效率提升到一个新的高度。
其本质的原因是自动化运维依然是人+自动化工具的模式,人工决策与实施依然是主要驱动力,但人会受到自身生理极限以及认知局限的限制,无法持续地面向大规模、高复杂性的系统提供高质量的运维效率。
而AIOps系统通过深度洞察能力为运维提供持续的,高质量的效率运转。
图6-2举例(大规模、高复杂性的系统运维,超越人+工具模式的承载力)
图6-3效率提升方向的常见应用场景
质量保障是运维的基本场景之一,随着业务的发展,运维系统也在不断的演进,其规模复杂度、变更频率非常大,技术更新也非常的快,与此同时,软件的规模、调用关系、变更频率也在逐渐增大。
在这样背景下,需要AIOps提供精准的业务质量感知、支撑用户体验优化、全面提升质量保障效率。
6.1.1智能变更
变更是运维中的一种常见场景,DevOps通过串联变更的各个环节形成流水线提升了效率,而AIOps不仅为变更流水线的各个环节引入了“系统决策”,也能更加持续地,精确地提供高效的变更质量管理。
智能变更的系统决策来源于运维人员的运维经验,这些经验通过机器学习,知识图谱等手段转化成系统可学习和实施的数据模型。
AIOps的智能变更可以应对以下场景:
1)频繁变更,高速发布的场景:
运维人员会由于生理极限以及认知的局限难以应付这样的场景。
例如,每天从1到10次变更时,运维人员通过自动化运维系统尚可应对,如果由10次升级到100次,甚至更多,就难以高效的,准确的应对了。
AIOps可以根据每次变更的目标,状态,上下文在变更过程中及时做出系统决策,帮助加速变更过程以及规避变更可能带来的问题。
2)大规模并行变更:
随着微服务架构的普及,实际上服务节点会成倍增长,原有几个或几十个节点,可能变成几千甚至上万的规模。
人工驱动工具的模式不但受制于人的精力而被迫“串行化”,也制约了变更过程的监察以及变更结果验证的准确性。
AIOps则可以并行驱动更大规模的变更过程,而且变更监察以及结果验证都会被更准确的完成。
6.1.2智能问答
运维的目标是为了支持稳定,可靠的业务运行,而业务与业务之间既可能有相似性,又可能有差异性。
但由于知识背景和对业务的认知差异,往往出现以下情况:
1)不同的业务人员或开发人员往往会询问运维人员一些相似的问题,运维人员的答案也是非常类似的,但人力被重复消耗。
2)面对同一个问题,运维人员的回答可能会出现差异(例如表达方式,措辞等),缺乏标准化,可能造成误解。
AIOps智能问答系统通过机器学习,自然语言处理等技术来学习运维人员的回复文本,构建标准问答知识库,从而在遇到类似问题的时候给出标准的,统一的回复。
这样,不仅可以有效地节省运维人员的人力成本,还能够使得提问得到更加及时的回复。
6.1.3智能决策
许多运维管理工作都需要各种各样的决策,包括扩容,缩容,制定权重,调度,重启等内容。
那么可能面临如下问题:
1)运维人员可以根据自己的业务经验制定相应的决策。
但是,不同的业务有着各自的特点,不同的运维人员也有着自己的业务经验。
如何将运维人员的这些经验有效地传承是个问题。
2)人的认知局限性,运维场景的复杂性可能导致最有经验的运维人员遗漏掉某些“不起眼”的“重要细节”,显然,准确的决策还依赖足够充足的细节。
AIOps智能决策一方面可以将运维人员的决策过程数据化,构建决策支持知识库,从而实现经验积累;另一方面,由于系统掌握了从全局到细节的数据,再结合决策支持知识库,可以为更加准确的决策提供最有力的支撑。
6.1.4容量预测
运维工作不仅仅包含对当下的决策和处理,往往还需要根据业务的诉求对未来做出合理的规划,包括扩容的预测,缩容的预测等。
由于对未来的规划时常存在不确定性,那么规划过程往往需要大量的数据来支持,还需要大量的推演来确定。
而人工预测的方式,一方面需要投入大量人力,另一方面运维人员的能力可能存在差异,使得推演的结果品质不尽一致。
AIOps智能预测借助大数据和机器学习能力,结合运维人员的有效评估经验,甚至业务发展模式以及政策等,对目标场景实现高效的推演过程,最终使预测结果趋近合理范围。
这样一
来,不但是人力得以节省,关键在于由于预测效率的提升,使得过去难以重复,耗时耗力的人工预测过程,变得可以应需而变,不断修正预测结果,最终使业务诉求获得最佳预测收益。
6.2质量保障方向
质量保障是运维的基本场景之一,随着业务的发展,运维系统也在不断的演进,其规模复杂度、变更频率非常大,技术更新也非常的快,与此同时,软件的规模、调用关系、变更频率也在逐渐增大。
在这样背景下,需要AIOps提供精准的业务质量感知、支撑用户体验优化、全面提升质量保障效率。
图6-4质量保障方向常见应用场景
6.2.1异常检测
运维系统中常见的两大类监控数据源是:
指标和文本。
前者通常是时序数据,即包含指标采集时间和对应指标的值;后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 AIOps 智能 方案 白皮书