数据挖掘与知识发现Word格式.docx
- 文档编号:1561724
- 上传时间:2023-05-01
- 格式:DOCX
- 页数:26
- 大小:70.29KB
数据挖掘与知识发现Word格式.docx
《数据挖掘与知识发现Word格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现Word格式.docx(26页珍藏版)》请在冰点文库上搜索。
☆数据、信息和知识间的关系是:
●数据是信息的载体和表示;
●信息是数据在特定场合下的含义,或者说信息是数据的语义。
如“建国80岁”。
但相同的数据在不同的场合会有不同的含义。
●信息仅是对客观事物的一般性描述,它还不是知识。
只有经过对其进行加工、整理、解释、挑选和改造,形成对客观世界规律性认识后才能称为知识。
可见,知识是对信息进行智能性加工所形成的对客观世界规律性的认识。
(如,水,在标准大气压下,加热到100度就会沸腾)
实现对信息的加工过程,实际上也是一种把信息关联在一起的过程。
因此,也可把有关信息关联在一起所形成的信息结构称为知识。
从这种意义上讲,“信息”与“关联”是构成知识的两个要素。
信息之间关联的形式很多,其中最常用的一种形式为:
如果……则……(IF……THEN……)
如,“如果他学过人工智能课程,则他应该知道什么叫知识”。
1.2什么是知识工程?
知识工程的概念出现于1977年的人工智能联合会议上,由费根鲍姆教授提出的,至今也没有严格的定义,但人们普遍认为,知识工程是以知识为处理对象,借用工程化的思想,应用人工智能的原理、方法和技术去设计、构造和维护知识型系统的一门学科,是人工智能的一个应用分支。
知识工程的目的是在研究知识的基础上,开发智能系统。
所以,知识工程的核心则是专家系统。
由此知,知识的获取、知识的表示、知识的运用便构成知识工程的三大要素。
知识工程的研究内容,主要包括:
基础理论研究、实用技术的开发、知识型系统工具研究和智能机等相关课题的研究。
其中,基础理论研究包括:
知识的本质、知识的表示、推理、获取和学习方法等;
实用技术主要研究解决建立知识系统过程中遇到的问题,包括:
实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、知识系统体系结构、知识库管理技术、知识型系统的调试与评估技术、实用解释技术、实用接口技术等;
知识型系统工具研究,主要是为了给系统的开发提供良好的环境工具,以提高系统研制的质量和缩短系统研制周期等。
★知识工程系统的特点
⏹知识工程系统能解决专家水平的问题;
⏹系统能快速的进行假设和搜索解答;
⏹系统能做出具有专家水平的解答;
⏹系统具有大量的基础知识和通用的问题求解能力;
⏹系统应能选择问题的恰当表示方式,其中的知识型系统是一个符号系统;
⏹系统具有自动推理的能力,能从结构步骤分析、解决、推理问题等,这些都表现出具有人工智能及其系统的特点。
因此,同样可以说,知识工程是人工智能的一个重要应用分支
★知识工程与人工智能的关系
传统人工智能不能进入实用阶段,主要原因有
⏹人工智能系统的知识库中只含有少量的规则和事实;
⏹人工智能系统的效率极低。
而知识工程是人工智能在知识信息处理方面的发展,它研究如何由计算机表示知识,进行问题的自动求解。
知识工程的研究使人工智能的研究从理论转向了应用,从基于推理的模型转向基于知识的模型,是新一代计算机的重要理论基础。
它的根本目的是在研究知识的基础上,开发人工智能系统,补充和扩大大脑的功能,开创人-机共同思考的时代。
★知识工程与专家系统的关系
专家系统是知识工程的核心。
知识工程的发展首先决定于专家系统的发展,专家系统的发展必将推动人工智能的应用。
专家系统的开发有三个基本的要素:
领域专家、知识工程师、大量实例。
在建立专家系统时,首先由知识工程师把领域专家的专门知识总结出来,以适当的形式存入计算机,建立起知识库(KB),根据这些专门知识,系统可以进行推理,做出判断和决策,能够解决一些只有人类专家才能解决的困难问题,专家系统主要是指软件系统。
通常一个最基本的专家系统应由:
知识库、数据库、推理机、解释机构、知识获取机构和用户界面6个部分组成。
图1专家系统的基本结构
其主要功能描述如下:
(1)知识库(KnowledgeBase)
知识库是指以某种存储结构存储领域专家的知识,包括事实和可行的操作与规则等。
为了建立专家库,需对领域问题的专家知识,用相应的知识表示方法将其表示出来,然后再进行形式化,并经编码放入知识库中。
所以,专家库的建立,首先要解决知识获取与知识表示的问题。
知识获取是指知识工程师如何从领域专家那里获得将要纳入知识库的知识。
知识表示要解决的问题是如何使用计算机能够理解的形式来表示和存储知识的问题。
通常,知识库中的知识分为两大类型:
一类是领域中的事实,称为事实性知识,这是一种广泛公用的知识,也即写在书本上的知识及常识;
另一类是启发性知识,它是领域专家在长期工作实践中积累起来的经验总结。
(2)数据库
也称全局数据库或综合数据库。
是用于存储与求解问题有关的初始数据(如,事实、数据、初始状态(证据))和推理过程中得到的中间数据。
如,在医疗专家系统中,数据库中存放的仅是当前患者的情况,如姓名、年龄、症状等及推理过程中得到的一些中间结果、病情等;
在气象专家系统中,数据库中存放的是当前气象要素,如云量、温度、气压以及推理得到的中间结果等。
由此看出,专家系统数据库只是一个存储很少的用于暂存中间信息的工作存储器(也称内涵数据库),而不是通常概念上的用于存放大量信息的数据库(也称外延数据库)。
(3)推理机
推理机是一组用来控制、协调整个专家系统的程序。
它根据全局数据库的当前内容,从知识库中选择可匹配的规则,并通过执行规则来修改数据库中的内容,再通过不断地推理导出问题的结论。
推理机中包含如何从知识库中选择规则的策略和当有多个可用规则时如何消解规则冲突的策略。
(4)解释机构
用于向用户解释专家系统的行为,包括解释“系统是怎样得出这一结论的”、“系统为什么要提出这样的问题来询问用户”等用户需要解释的问题。
(5)知识获取机构
知识获取是专家系统的一种辅助功能,它可为修改知识库中的原有知识和扩充新知识提供相应手段。
知识获取机构的基本任务是把知识加入到知识库中,并负责维持知识的一致性及完整性,建立起性能良好的知识库。
通常,不同的专家系统,知识获取功能和实现方法差别较大。
如,
1有的系统首先由知识工程师向领域专家获取知识,然后通过相应的知识编辑软件把知识送到知识库中;
2有的系统自身就具有部分学习功能,由系统直接与领域专家对话获取知识;
3有的系统具有较强的学习功能,可在系统运行过程中通过归纳、总结,得出新的知识。
总之,不管采用方式,知识获取都是目前专家系统研究中的一个重要问题。
所以,知识工程的概念从1977年提出至今,现已成为一门新兴的边缘学科。
它是人工智能,数据库技术,数理逻辑,认知科学,心理学等学科交叉发展的结果。
1.3知识发现
KDD(KnowledgeDiscoveryinDatabase)一词是于1989年8月在美国底特律市召开的第一届KDD国际学术会议上正式形成的。
研究的问题主要有:
1定性知识和定量知识的发现;
2知识发现方法;
3知识发现的应用等。
KDD的含义,由Fayyad定义为:
从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
涉及几个概念:
“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用性”和“最终可理解性”。
数据集:
数据库记录的集合F;
模式:
即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。
按功能可以分为预测型模式和描述型模式。
在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。
过程:
通常在KDD中指多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精;
该过程要求是非平凡的,意思是要有一定程度的智能性、自动性;
有效性:
是指发现的模式对于新的数据仍保持一定的可信度;
新颖性:
要求发现的模式应该是新的;
潜在有用性:
是指发现的知识将来有实际效用,如,用于决策支持系统里可提高经济效益;
最终可理解性:
要求发现的模式能被用户理解,目前它主要体现在简洁性上。
其中,“有效性”、“新颖性”、“潜在有用性”和“最终可理解性”综合在一起称为兴趣性。
KDD的研究内容是:
如何自动地去处理数据库中大量的原始数据,从中挖掘搜索出具有规则、富有意义的模式。
它的发现过程主要有三个步骤:
1数据准备,又包括数据选取(Dataselection)、数据预处理(Datapreprocessing)和数据变换(Datatransformation)三个子步骤;
2数据挖掘(DataMining)阶段;
3结果解释和评价。
即:
KDD=数据准备+DM+解释评价。
图1KDD过程
由上图知,知识发现的过程可粗略的理解为三部曲:
数据准备(Datapreparation)、数据挖掘(Datamining)以及结果的解释评估(interpreparationandevaluation)。
①数据准备又可分为:
数据选取、数据预处理和数据变换三个子步骤。
●数据选取的目的是确定发现任务的操作对象,即目标数据。
它是根据用户的需求从原始数据库中抽取的一组数据。
●数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如,把连续值数据转换为离散型数据,以便符号归纳;
或把离散型数据转换为连续值型数据,以便神经网络归纳)等;
●数据变换的主要目的是消减数据的维数或降维,即从初始特征中找出真正有用的特征,以减少数据开采时要考虑的特征或变量个数。
②数据挖掘阶段:
ⅰ)确定开采的任务或目的,如数据总结、分类、聚类、关联规则发现或序列模式发现等;
ⅱ)确定使用的开采算法。
选择实现算法有两个考虑因素:
(1)不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;
(2)用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(如,采用规则表示的挖掘方法显然好于神经网络之类的方法),而有的用户只希望获取预测准确度尽可能高的预测型知识。
选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。
③结果解释和评价,对数据挖掘发现出来的模式,应经用户或机器评价后才能成为知识。
因为
ⅰ)挖掘出来的模式可能存在冗余或无关的模式,此时需将其剔除;
ⅱ)挖掘出来的模式可能不满足用户要求,这时应退回到发现阶段之前,如重选数据、采取新的变换方法和新的开采算法等
ⅲ)KDD最终是要面向人类用户,因此,应对挖掘发现的模式进行可视化(如散点图、直方图等),或把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if…then…”规则。
由此过程可得:
1、数据挖掘仅仅是整个知识发现过程中的一个步骤。
挖掘质量的好坏有两个影响要素:
(1)是所采用的数据挖掘技术的有效性;
(2)是采用的数据质量和数量(数据量的大小)。
如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果不会成功。
2、整个挖掘过程是一个不断反馈的过程。
比如,用户在挖掘途中发现选择的数据不太满意,或使用的挖掘技术产生不了期望的结果。
这时,用户需要重复先前的过程,甚至从头重新开始。
3、可视化技术在数据挖掘的各个阶段都起着重要的作用。
特别是在数据准备阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解,从而为更好地选取数据打下基础;
在挖掘阶段,用户则要使用与领域问题有关的可视化工具;
在表示结果阶段,则可能要用到可视化技术以使得发现的知识更易于理解。
问题:
数据挖掘的可视化主要包括哪些研究内容?
目前流行的可视化技术主要有哪几种?
答:
数据挖掘的可视化主要研究包括
(1)数据的可视化:
将数据的不同粒度或不同的抽象级别用多种可视化方式进行描述.对被挖掘的原始数据的可视化有助于确定合适的模型进行数据挖掘处理;
(2)数据结果的可视化:
将数据挖掘后得到的知识和结果用可视化形式表示出来.知识表达、解释和评价的可视化有助于理解所获得的知识并检验知识的真伪和实用性;
(3)数据挖掘过程的可视化:
用可视化形式描述各种挖掘过程,用户通过可视化方式可以了解挖掘数据的来源、数据的抽取过程、具体的挖掘计算和推理过程等。
目前流行的可视化技术主要有:
(1)面向像素技术:
其基本思想是将每个数据值映射到一个有色的像素上并将属于某个属性的数据值表示在一个独立的窗口中;
(2)几何投影技术:
其目标是在多维数据集中找到“有意义”的投影,是一种平行坐标轴可视化技术。
该技术通过使用相互平行而且等距的坐标轴将多维空间映射成两维显示。
(3)基于图标技术:
是将一个多级数据项映射成一个图标,是一种条状图技术。
在该技术中,用两维来进行坐标显示,而剩下的维则被映射成条状图标的角度或条状图标的长度;
(4)层次技术:
是对多维空间进行细分,然后以一种层次的形式表示这些子空间。
由于KDD是一门受到来自各种不同领域的研究者关注的交叉学科(如涉及:
统计学、机器学习、数据库技术、模式识别、人工智能和可视化等),因此导致了很多不同的术语名称。
除KDD外,主要还有:
“数据挖掘”、知识抽取(knowledgeextraction)、信息发现、智能数据分析、探索式数据分析、信息收获、数据考古学(dataarchaeology)、数据捕捞(datadredging)等等。
其中,最常用的术语是“知识发现”和“数据挖掘”。
1995年在加拿大召开了第一届知识发现和数据挖掘(DataMing,DM)国际学术会议。
由于把数据库中的“数据”形象地比喻成矿床,把KDD比作从数据矿山中找到蕴藏的知识金块。
从此“数据挖掘”一词很快流传开来。
又由于数据挖掘是KDD过程中的关键步骤,所以目前多数人不加区分地使用知识发现和数据挖掘这两个术语。
相对来讲,数据挖掘主要流行于统计界、数据分析、数据库和管理信息系统界;
而知识发现主要流行于人工智能和机器学习界。
1.4知识发现的对象
知识发现的对象是数据集。
数据集类型有:
关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库源、多媒体数据库、异质数据库以及万维网(Web)数据库等。
其中,关系数据库是典型的结构化数据。
目前,随着技术的发展,数据挖掘对象已逐步扩大到半结构化或非结构化数据,如Web数据、图像和视频数据以及文本数据等。
1、关系数据库
对关系数据库,数据挖掘方法主要是研究数据库中属性之间的关系,挖掘出多个属性取值之间的规则。
由于关系数据库的特点,促使了数据挖掘方法的改善。
关系数据库的特点如下:
①数据动态性
数据的动态变化是数据库的一个主要特点。
由于数据的存取和修改,使数据的内容经常发生变化,这就要求数据挖掘方法能适应这种变化。
渐增式数据挖掘方法就是针对数据变化,使挖掘的规则(知识)能满足变化后的数据库内容。
②数据不完整性
数据不完整性主要反映在数据库中记录的域值丢失或不存在(空值)。
这种不完整数据给数据挖掘带来了困难。
为此,必须对数据进行预处理,填补该数据域的可能值。
③数据噪声
由于数据录入等原因,造成错误的数据,即数据噪声。
含噪声的数据挖掘会影响抽取模式的准确性,并增加了数据挖掘的困难度。
④数据冗余性
这表现在同一信息在多处重复出现。
函数依赖是一个通常的冗余形式。
冗余信息可能造成错误的数据挖掘,至少有些挖掘的知识是用户不感兴趣的。
为了避免这种情况发生,数据挖掘时,需要知道数据库中有哪些固有的依赖关系。
⑤数据稀疏性
表现在实例空间中数据稀疏,数据稀疏会使数据挖掘丢失有用的模式。
⑥海量数据
数据库中的数据在不断增长,已出现很多海量数据库。
数据挖掘方法需要逐步适应这种海量数据挖掘,如建立有效的索引机制和快速查询方法等。
2、文本数据库
文本是以文字串形式表示的数据文件。
文本分析包括:
关键词或特征提取;
相似检索;
文本聚类和文本分类等。
文本中的特征如人名、地名、组织名等是某些文本中的重要信息,特征提取对掌握该文本的内容很重要。
①关键词或特征提取
一篇文本中,标题是该文本的高度概括。
标题中的关键词是标题的核心内容。
关键词的提取对于掌握该文本的内容至关重要。
②相似检索
对文本中关键词的相似检索是了解文本内容的一种重要方法。
如,“专家系统”与“人工智能”两个关键词是有一定联系的,研究专家系统的文本,一定属于人工智能的研究领域。
③文本聚类
对于文本标题中关键词(主题词)的相似匹配是对文本聚类的一种简单方法。
定义关键词的相似度,将便于文本的简单聚类,类中文本满足关键词的相似度,类间文本的关键词超过相似度。
④文本分类
将文本分类到各文本类中,一般需要采用一个算法,这些算法包括分类器算法、近邻算法等,这需要按文本中的关键词或特征的相似度来区分。
3、图像与视频数据库
图像与视频数据库是典型的多媒体数据库。
数据以点阵信息及帧形式存储,数据量很大。
图像与视频的数据挖掘包括:
图像与视频特征提取;
基于内容的相似检索;
视频镜头的编辑与组织等。
①图像与视频特征提取
图像与视频特征有颜色、纹理和形状等。
这些特征提取是用基于内容的相似检索。
如,海水是蓝色、海滩是黄色、房屋的形状及颜色等,都需要从大量图像和视频数据中提取。
②基于内容的相似检索
根据图像、视频特征的分布、比例等进行基于内容的相似检索,可以将图像和视频数据进行聚类以及分类,也能完成对新图像或视频的识别。
如,对遥感图像或视频的识别,这种应用非常广泛,例如,森林火灾的发现与报警,河流水灾的预报等。
③视频镜头的编辑与组织
镜头代表一段连续动作(视频数据流)。
典型的镜头编辑如足球的射门、某段新闻节目等,都需要在冗长的视频数据流中进行自动裁取。
经过编辑的镜头,按某种需要重新组织,将形成特定需求的新视频节目。
如足球射门集锦,某个新闻事件的连续报道等。
4、Web数据库
随着Internet的发展和普及,网站数目的迅速增长及上网人数的剧烈增多,使网络数据量呈指数增长,Web数据挖掘已成为新课题。
Web数据挖掘具有如下特点:
①异构数据集成和挖掘
Web上每一站点是一个数据源,各数据源都是异构的,形成了一个巨大的异构的数据库环境。
将这些站点的异构数据进行集成,给用户提供一个统一的视图,才能在Web上进行数据挖掘。
②半结构化数据模型抽取
Web上的数据非常复杂,没有特定的模型描述。
虽然每个站点上的数据是结构化的,但各自的设计对整个网络而言是一个非完全结构化的数据,称为半结构化数据。
对半结构化数据模型的查询和集成,需要寻找一种半结构化模型抽取技术来自动抽取各站点的数据。
如,XML是一种半结构化的数据模型,容易实现Web中的信息共享与交换。
总之,Web数据挖掘正在逐步形成热点。
1.5知识发现的分类
知识发现涉及多个学科,主要包括数据库、统计学和机器学习等三大主要技术。
数据库技术经过20世纪80年代的大发展,除关系数据库外,又陆续出现面向对象数据库、多媒体数据库、分布式数据库以及Web数据库等。
数据库的应用从一般查询到模糊查询和智能查询,数据库计算已趋向并行计算。
从以上数据库中挖掘知识正在兴起并已得到迅速发展。
统计学是一门古老学科,现已逐渐走向社会。
成为社会调查、了解民意以及制定决策的重要手段。
机器学习是人工智能的重要分支。
它是在专家系统获取知识出现瓶颈后发展起来的。
机器学习的大部分方法和技术已演变为数据挖掘方法和技术。
知识发现可按数据库类型、知识发现对象、知识发现任务、知识发现方法与技术,以及应用等几个方面进行分类。
(1)按数据库类型分类
知识发现主要是在关系数据库中挖掘知识。
随着数据库类型的不断增加,逐步出现了不同数据库的知识发现。
现有:
关系数据的知识发现、模糊数据的知识发现、历史数据的知识发现和空间数据的知识发现等多种不同数据库的知识发现类型。
(2)按知识发现的对象分类
知识发现除了对数据库这个主要的对象进行知识发现外,还有文本数据知识发现、多媒体数据知识发现和Web网数据知识发现等。
由于对象不同,知识发现的方法相差很大,文本、多媒体、Web网数据均是非结构化数据,知识发现的难度将很大。
(3)按知识发现的任务分类
知识发现的任务主要有:
关联分析、时序模式、聚类、分类、偏差检测以及预测六项。
故按知识发现的任务分类有:
关联规则知识发现、序列知识发现、聚类知识发现、分类知识发现、偏差分析知识发现以及预测知识发现等类型。
(4)按知识发现方法和技术分类
归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类等等。
1.6知识发现的方法
可粗分为:
统计方法、机器学习方法、神经网络方法、数据库方法和可视化方法。
统计方法可细分为:
回归分析、判别分析、聚类分析、探索性分析等;
机器学习可细分为:
归纳学习方法、基于范例学习、遗传算法等;
神经网络可细分为:
前向神经网络、自组织神经网络等;
数据库方法主要是:
多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
对可视化方法主要是把数据、信息和知识转化为可视的表示形式的过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 知识 发现