aai09知识发现和数据挖掘0高级人工智能史忠植.pptx
- 文档编号:18634210
- 上传时间:2023-08-23
- 格式:PPTX
- 页数:54
- 大小:432.78KB
aai09知识发现和数据挖掘0高级人工智能史忠植.pptx
《aai09知识发现和数据挖掘0高级人工智能史忠植.pptx》由会员分享,可在线阅读,更多相关《aai09知识发现和数据挖掘0高级人工智能史忠植.pptx(54页珍藏版)》请在冰点文库上搜索。
第九章知识发现和数据挖掘数据挖掘工具MSMiner史忠植中科院计算所2023/8/231史忠植高级人工智能主要内容研究背景MSMiner体系结构元数据数据仓库平台数据采掘集成工具2023/8/232史忠植高级人工智能典型的知识发现系统(3)SAS公司的SASEnterpriseMinerIBM公司的IntelligentMinerSolution公司的ClementineDataEngineDBMiner中科院计算技术研究所的MSMiner2023/8/233史忠植高级人工智能知识发现工具SAS
(1)SAS公司的SASEnterpriseMiner是一种通用的数据挖掘工具。
通过收集分析各种统计资料和客户购买模式,SASEnterpriseMiner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。
2023/8/234史忠植高级人工智能知识发现工具SAS
(2)SASEnterpriseMiner提供抽样-探索-转换-建模-评估(SEMMA)的处理流程。
数据挖掘算法有:
聚类分析,SOM/KOHONEN神经网络分类算法关联模式/序列模式分析多元回归模型决策树模型(C45,CHAID,CART)神经网络模型(MLP,RBF)SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。
2023/8/235史忠植高级人工智能知识发现工具IntelligentMinerIBM公司的IntelligentMiner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。
它可以自动实现数据选择、数据转换、数据发掘和结果显示。
若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。
2023/8/236史忠植高级人工智能知识发现工具ClementineSolution公司的Clementine提供了一个可视化的快速建立模型的环境。
它由数据获取(DataAccess)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。
都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。
2023/8/237史忠植高级人工智能数据挖掘工具:
公用系统MLC+MatlabBrute2023/8/238史忠植高级人工智能知识发现工具MSMiner中科院计算技术研究所智能信息处理开放实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。
MSMiner具有下列特点:
提出了一种面向对象的元数据结构,设计实现了一种简单但有效的数据仓库平台提出了一种面向对象的数据挖掘任务模型设计了一种可扩展算法库2023/8/239史忠植高级人工智能数据仓库:
特征面向主题集成性稳定性随时间变化2023/8/2310史忠植高级人工智能数据仓库:
OLAPMOLAPROLAP2023/8/2311史忠植高级人工智能数据挖掘和数据仓库的结合数据仓库为数据挖掘提供经良好处理的数据源数据挖掘为数据仓库提供深层数据分析手段2023/8/2312史忠植高级人工智能MSMiner体系结构设计目标:
提供快捷有效的数据挖掘解决方案。
设计要求:
开放性可扩展性效率易用性2023/8/2313史忠植高级人工智能MSMiner体系结构MSMiner体系结构示意图客户端服务器端元数据模块执行数据采掘任务编辑数据采掘任务数据采掘集成工具数据抽取和集成主题组织OLAP可视化数据仓库管理器数据仓库OLEDBforODBC2023/8/2314史忠植高级人工智能元数据的内容关于外部数据源的关于内部数据的(包括数据库、表、字段的信息)关于数据仓库的(包括事实表、维表、立方以及其它的中间表)关于用户信息的数据采掘算法(包括算法的参数信息)关于采掘任务的(包括采掘步骤、每个步骤的所用的参数)2023/8/2315史忠植高级人工智能元数据:
元数据库2023/8/2316史忠植高级人工智能元数据:
元数据对象模型设计思路一致性完备性易维护性2023/8/2317史忠植高级人工智能元数据是层次的嵌套的封装的互相联系的采用面向对象的方法60多个类元数据的结构2023/8/2318史忠植高级人工智能数据仓库平台:
结构MSMiner数据仓库结构示意图外部数据数据仓库元数据数据抽取、清洗、聚集、转换主题2主题1主题nOLAP及可视化工具数据采掘集成工具.2023/8/2319史忠植高级人工智能数据仓库平台:
数据抽取和集成数据的简单抽取和集成数据的复杂处理面向数据挖掘的数据预处理2023/8/2320史忠植高级人工智能数据抽取和集成:
MSETLMSETL系统作为本实验室数据处理软件系列的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。
具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库2023/8/2321史忠植高级人工智能数据抽取和集成:
MSETL用户界面(ETL转换函数和ETL任务)逻辑处理元数据管理数据库服务器2023/8/2322史忠植高级人工智能数据抽取和集成:
MSETL支持多种数据源和目的数据库良好的可扩充性高效率的调度执行功能增量更新功能2023/8/2323史忠植高级人工智能数据抽取和集成:
MSETL2023/8/2324史忠植高级人工智能数据抽取和集成:
MSETL2023/8/2325史忠植高级人工智能数据仓库平台:
数据仓库建模产品号产品名称产品目录产品表订单号订货日期订货表客户号客户名称客户地址客户表产品号客户号订单号时间标识地区名称产品数量总价事实表时间标识月季度年时间表地区名称省别地区表星型模型2023/8/2326史忠植高级人工智能OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivotOLAP方案对小规模数据:
ActiveXOCX对大规模数据:
前台工具+MSOLAPServer2023/8/2327史忠植高级人工智能数据立方2023/8/2328史忠植高级人工智能OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivotOLAP方案对小规模数据:
ActiveXOCX对大规模数据:
前台工具+MSOLAPServer2023/8/2329史忠植高级人工智能数据立方2023/8/2330史忠植高级人工智能数据仓库平台:
OLAP的实现2023/8/2331史忠植高级人工智能元数据的内容关于外部数据源的关于内部数据的(包括数据库、表、字段的信息)关于数据仓库的(包括事实表、维表、立方以及其它的中间表)关于用户信息的关于算法(包括算法的参数信息)关于采掘任务的(包括采掘步骤、每个步骤的所用的参数)2023/8/2332史忠植高级人工智能数据挖掘集成工具:
结构数据挖掘集成工具结构示意图数据仓库平台任务编辑任务规划和执行算法库算法管理元数据任务模型库、算法描述2023/8/2333史忠植高级人工智能数据挖掘集成工具:
数据挖掘任务模型Step1Step2Step4Step3Step5DMTask=(V,R)V=x|xStepObjectsR=|P(x,y)x,yV2023/8/2334史忠植高级人工智能数据挖掘集成工具:
数据挖掘任务模型步骤对象BNF语法定义:
:
=;:
=|;:
=,:
=|;:
=,:
=|:
=|:
=*2023/8/2335史忠植高级人工智能数据挖掘集成工具:
编辑任务模型任务向导2023/8/2336史忠植高级人工智能数据挖掘集成工具:
编辑任务模型任务编辑图板2023/8/2337史忠植高级人工智能数据挖掘集成工具:
处理任务模型人机界面主控模块规划器解释器缓存函数库黑板任务模型库数据采掘任务处理引擎的结构2023/8/2338史忠植高级人工智能数据挖掘集成工具:
处理任务模型任务规划和解释执行S1S3S2S4S5S1-S2-S3-S4-S52023/8/2339史忠植高级人工智能数据挖掘集成工具:
DML语言DML函数n人机交互和控制台输入/输出n数值计算n字符串处理n图形、图表展示n文件操作n数据库访问n网络通讯n对象访问n消息处理和流程控制n黑板操作n外部功能调用n其它辅助功能2023/8/2340史忠植高级人工智能数据挖掘集成工具:
内嵌决策树SOM神经网络粗糙集关联规则2023/8/2341史忠植高级人工智能决策树2023/8/2342史忠植高级人工智能知识约简知识约简在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识冗余知识资源的浪费;干扰人们作出正确而简洁的决策RoughSet把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak)知识约简是粗糙集的核心内容之一2023/8/2343史忠植高级人工智能RoughSet约简2023/8/2344史忠植高级人工智能数据挖掘集成工具:
外联BP神经网络统计分析模糊聚类超曲面分类SVM贝叶斯网络基于范例推理(CBR)隐马尔科夫模型(HMM)2023/8/2345史忠植高级人工智能BP用于预测2023/8/2346史忠植高级人工智能统计工具线性回归模型一元线性回归、多元线性回归、逐步回归非线性回归模型二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型确定型时间序列模型指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线)、季节指数法随机型时间序列模型(自回归移动平均模型ARMA)相关分析2023/8/2347史忠植高级人工智能自回归动平均(ARMA)2023/8/2348史忠植高级人工智能模糊聚类基于传递闭包的模糊聚类计算模糊相似矩阵的传递闭包,从而获得传递闭包法的模糊聚类基于摄动的模糊聚类参数系相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类2023/8/2349史忠植高级人工智能数据挖掘集成工具:
可扩展算法库算法注册2023/8/2350史忠植高级人工智能MSMiner的应用:
计算机选案决策树选案执行选案选案结果分析定义样本模板训练样本数据选案规则样本数据表数据汇总表税务稽查计算机选案系统功能结构2023/8/2351史忠植高级人工智能MSMiner的应用:
计算机选案挖掘结果:
2023/8/2352史忠植高级人工智能进一步的工作与用户合作开发应用实例进一步完善工作流完善和丰富数据挖掘算法库算法评测功能。
2023/8/2353史忠植高级人工智能谢谢谢谢THANKYOU2023/8/2354史忠植高级人工智能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- aai09 知识 发现 数据 挖掘 高级 人工智能 史忠植