数据挖掘及其应用.docx
- 文档编号:18104617
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:28
- 大小:39.84KB
数据挖掘及其应用.docx
《数据挖掘及其应用.docx》由会员分享,可在线阅读,更多相关《数据挖掘及其应用.docx(28页珍藏版)》请在冰点文库上搜索。
数据挖掘及其应用
《数据发掘论文》
数据发掘分类方法及其应用
课程名称:
数据发掘观点与技术
姓名
学号:
指导教师:
数据发掘分类方法及其应用
作者:
来煜
纲要:
社会的发展进入了网络信息时代,各样形式的数据海量产生,在这些数据的
背后隐蔽这很多重要的信息,怎样从这些数据中找出某种规律,发现实用信息,越
来越遇到关注。
为了适应信息办理新需乞降社会发展各方面的急迫需要而发展起来
一种新的信息剖析技术,这类形势称为数据发掘。
分类技术是数据发掘中应用领域
极其宽泛的重要技术之一。
各样分类算法有其自己的好坏,合适于不一样的领域。
目
前跟着新技术和新领域的不停出现,对分类方法提出了新的要求。
。
重点字:
数据发掘;分类方法;数据剖析
前言
数据是知识的源泉。
可是,拥有大批的数据与拥有很多实用的知识完整部是两回
事。
过去几年中,从数据库中发现知识这一领域发展的很快。
广阔的市场和研究利
益促进这一领域的飞快发展。
计算机技术和数据采集技术的进步令人们能够从更为
宽泛的范围和几年前不行想象的速度采集和储存信息。
采集数据是为了获取信息,
但是大批的数据自己其实不意味信息。
只管现代的数据库技术使我们很简单储存大批
的数据流,但此刻还没有一种成熟的技术帮助我们剖析、理解并使数据以可理解的
信息表示出来。
在过去,我们常用的知识获取方法是由知识工程师把专家经验知识
经过剖析、挑选、比较、综合、再提拿出知识和规则。
但是,因为知识工程师所拥
有知识的有限制性,所以对于获取悉识的可信度就应当打个折扣。
目前,传统的知识获取技术面对巨型数据库房力所不及,数据发掘技术就应运而生。
数据的快速增添与数据剖析方法的滞后之间的矛盾愈来愈突出,人们希望在对
已有的大批数据剖析的基础长进行科学研究、商业决议或许公司管理,可是目前所
拥有的数据剖析工具很难对数据进行深层次的办理,使得人们只好望“数”兴叹。
数据发掘正是为认识决传统剖析方法的不足,并针对大规模数据的剖析办理而出现
的。
数据发掘经过在大批数据的基础上对各样学习算法的训练,获取数据对象间的
关系模式,这些模式反应了数据的内在特征,是对数据包含信息的更高层次的抽象。
目前,在需要办理大数据量的科研领域中,数据发掘遇到愈来愈多的关注,同时,
在实质问题中,大批成功运用数据发掘的实例说了然数据发掘对科学研究拥有很大
的促进作用。
数据发掘能够帮助人们对大规模数据进行高效的剖析办理,以节俭时
间,将更多的精力投入到更高层的研究中,进而提升科研工作的效率。
分类技术是数据发掘中应用领域极其宽泛的重要技术之一。
到现在已提出了多种
分类算法,主要有决议树、关系规则、神经网络、支持向量机和贝叶斯、k-邻近法、遗传算法、粗拙集以及模糊逻辑技术等。
大多半技术都是使用学习算法确立分
类模型,拟合输入数据中样本类型和属性集之间的联系,展望未知样本的类型。
训练算法的主要目标是成立拥有好的泛化能力的模型,该模型能够正确地展望未知样本的类型。
1.数据发掘概括
数据发掘又称数据库中的知识发现,是目古人工智能和数据库领域研究的热门问题,所谓数据发掘是指从数据库的大批数据中揭露出隐含的、先前未知的并有潜
在价值的信息的非平庸过程。
数据发掘是一种决议支持过程,它主要鉴于人工智能、机器学习、模式辨别、统计学、数据库、可视化技术等,高度自动化地剖析公司的
数据,做出概括性的推理,从中发掘出潜伏的模式,帮助决议者调整市场策略,减少风险,做出正确的决议。
数据发掘是经过剖析每个数据,从大批数据中找寻其规律的技术,主要有数据
准备、规律找寻和规律表示3个步骤。
数据准备是从有关的数据源中选用所需的数据并整合成用于数据发掘的数据集;规律找寻是用某种方法将数据集所含的规律找
出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
分类技术是数据发掘中应用领域极其宽泛的重要技术之一。
各样分类算法有其自己的好坏,合适于不一样的领域。
目前跟着新技术和新领域的不停出现,对分类方法提出了新的要求。
2.数据发掘分类算法介绍
分类是用于辨别什么样的事务属于哪一类的方法,可用于分类的算法有决议
树、关系规则、神经网络、支持向量机和贝叶斯、k-邻近法、遗传算法、粗拙集以及模糊逻辑技术等。
下边对若干分类问题进行简要剖析。
2.1鉴于决议树的分类
鉴于决议树的分类算法是数据发掘中最为典型的分类算法。
决议树是一个近似
于流程图的树结构,其每个内部节点表示在一个属性上的测试,每个分枝代表一个
测试输出,每个叶节点代表类或类散布。
2.1.1决议树算法基本思想。
开始时所有的训练样本在根部,鉴于最高信息
增益自顶向下递归地区分数据集,生成决议树。
当一个结点上所有样本都属于同一
类或许没有节余属性能够用来进一步区分样本时停止区分,形成一个叶结点。
假如
叶结点上的样本不属于同一类,则依据大多半样本的分类来确立叶结点的类型。
创立决议树时,因数据中存在噪声和孤立点,很多分枝反应的是训练数据集中
的异样。
剪枝方法能够剪去不行靠的分枝,提升分类速度和分类的正确度。
常用的
剪枝方法有:
先剪枝和后剪枝。
前者经过提早停止树的结构而对树剪枝;后者在完
全创立好的树上剪去分枝。
2.1.2
典型的决议树算法。
最为典型的决议树学习算法是
ID3,它采纳自顶
向下不回溯策略,能保证找到一个简单的树。
算法
c4.5和
c5.0是
ID3
的扩展,
它们将分类领域从类型属性扩展到数值型属性。
在决议树中,从根到树叶的每条路径以IF—THEN形式表示一条分类规则,沿
着给定路径上的每个属性一值对形成规则前件的一个合取项,叶结点包含类展望,
形成规则后件。
2.1.3优弊端。
决议树很善于办理非数值型数据,从决议树中能够方便地提
取分类规则。
其主要优点是描绘简单,分类速度快,特别合适大规模的数据办理。
不足之处是ID3算法倾向于选择属性许多的属性,而属性许多的属性常常不是最优
的属性:
学习简单的逻辑表达能力较差。
2.2鉴于统计的分类
贝叶斯分类算法是鉴于贝叶斯定理的一种统计学分类算法。
它们能够展望类成
员关系的可能性,如给定样本属于一个特定类的概率。
假如出现类型重叠现象,贝
叶斯分类算法采纳两种方法办理这类状况:
一是选择后验概率最大的类型,二是选
择功效函数最大(或损失最小)的类型。
贝叶斯分类也是一种常用的分类方法,它是
一种对属性集和类变量的概率关系建模的方法。
其理论基础是贝叶斯定理,可用式
2.2.[1]
表示。
p(c|x)=p(x|c)p(c)/p(x)
2
.2.[1]
此中
x是类标号未知的数据样本。
设
c为某种假设,如数据样本
I属于某特定
类民则P(c|x)为c成立的概率,也称为类c的先验概率;P(x)为x的支持度。
P(c|
x)是规定数据样本x,假设c成立的概率,称作类c的后验概率。
P(xvc)是假设c
成立的状况下,样本x的支持度,也称为类条件概率。
正确预计类标号和属性值的每一种可能组合的后验概率特别困难,因为即使属
性数目不是很大,仍旧需要很大的训练集。
此时,贝叶斯定理很实用,因为它同意
我们用先验概率P(c)、类条件概率P(x|c)和P(x)来表示后验概率。
在比较不一样类c的后验概率时,分母P(x)老是常数,所以能够忽视。
先验概率
P(c)能够经过计算训练集中属于每个类的训练记录所占的比率很简单地预计。
所以
类c的后验概率P(x|c)确实定取决于对类条件概率P(x|c)的预计。
对类条件概
率P(x|c)的预计,常使用两种贝叶斯分类方法来实现:
朴实贝叶斯分类和贝叶斯信念网络。
2.3鉴于神经网络的分类
2.3.1基本思想。
常常用于分类的还有人工神经网络方法。
神经网络[3]为解
决大复杂度问题供给了一种相对来说比较有效的简单方法,它是模拟人脑神经网络的结构和某些工作体制而成立的一种非线形展望模型,经过学习进行模式识其余。
其工作机理是经过学习改变神经元之间的连结强度。
神经网络有前向神经网络、反应神经网络、自组织神经网络等,在神经网络中,由权重和网络的拓扑结构决定了它所能识其余模式种类。
神经网络分类过程能够分为训练和分类两个阶段。
在训练阶段,第一定义网络的拓扑结构,再对训练样本中的每个属性的值进行规范化预办理,而后用神经网络对已预办理的输入进行学习。
训练完成后,用训练好的神经网络对表记样本进行分类。
最流行的神经网络学习算法是后向流传算法。
后向流传算法是在多层前馈神经
网络长进行学习的。
这类神经网络拥有一个输入层和一个输出层,在二者之间可能
包含多此中间层,这些中间层叫做隐蔽层。
后向流传经过迭代地办理一组训练样本,
将每个样本的网络展望与实质知道的类标号比较,进行学习。
对于每个训练样本,
改正权值,使得网络展望和实质类之间的均方偏差最小。
这类改正后向进行,即由
输出层,经由每个隐蔽层,到第一个隐蔽层。
一般的,权将最后收敛,学习过程停
止。
算法的每一次迭代包含两个阶段:
前向阶段和后向阶段。
在前向阶段,使用前
一次迭代所获取的权值计算网络中每一个神经元的输出值。
计算是向行进行的,先
计算第k层神经元的输出,再计算第k+1层的输出。
在后向阶段,以相反的方向
应用权值更新公式,先更新k+1层的权值,再更新第k层的权值。
2.3.2优弊端。
神经网络法的优点是有较强的抗噪能力,对未经训练的数据也拥有较好的展望分类能力。
神经网络的主要弊端是用加权链连结单元的网络所表示的知识很难被人理解、学习时间较长,仅合用于时间允许的应用处合;对于如网络结构等重点参数,往常需要经验方能有效确立。
2.4鉴于源自关系规则发掘观点的分类
2.4.1基本思想。
关系规则聚类系统是鉴于聚类发掘关系规则,而后使用规
则进行分类。
发掘形如Aquan1∧Aquan2→Acat的关系规则;此中,Aquan1,Aquan2
是在量化属性区间上的测试,为给定训练数据的分类属性指定一个类标号。
关系规
则画在2-D栅格上。
算法扫描栅格,搜寻规则的矩形聚类。
由ARCS产生的聚类关
联规则用于分类,其正确率与C4.5差不多,精准度比C4.5高一点。
关系分类发掘形如condset→y的规则,condset是项属性一值对的会合,y是
类标号。
若给定数据集中的样本s%包含condset而且属于类y,则规则的支持度
为s。
若规则知足早先指定的最小支持度,则该规则是屡次;若给定数据集中包含conset的样本c%属于类y,则规则的置信度为c;若知足最小置信度,则该规则是精准的。
假如一个规则项集拥有相同的condset,则选择拥有最高置信度的规则作为可能规则,代表该会合。
2.4.2关系分类方法由两步构成。
第一步是找出所有屡次的、精准的PR会合。
算法使用迭代方法,近似Apriori。
第二步使用一种启迪式方法结构分类,发现的
规则按支持度和置信度递减的优先序次组织,用知足新样本知足该样本的第一个规则对其分类。
CBA是关系分类的经典算法,该方法比c4.5更精准。
2.5其余分类方法
用于数据分类的方法还有:
鉴于案例的推理分类法、遗传算法等。
2.5.1鉴于案例的推理分类法。
鉴于案例的推理分类法是鉴于要求的,其存
放的样本是复杂的符号描绘。
当给定一个待分类的新案例时,鉴于案例的推理第一
检查能否存在一个相同的训练案例。
假如找到一个,则返回附在该案例上的解。
如
果找不到相同的案例,则鉴于案例的推理将搜寻拥有近似于新案例成分的训练案
例,这些训练案例可视为新案例的毗邻者。
2.5.2遗传算法。
遗传算法联合了自然进化的思想。
遗传学习开始时创立了
一个由随机产生的规则构成的初始集体,每个规则能够用一个二进制位串表示。
根
据适者生计的原则,形成由目前集体中最合适的规则构成的新集体,以及这些规则
的后辈。
后辈经过使用诸如交错和变异等遗传操作来创立。
由先前的规则集体产生
新的规则集体的过程持续进化,直到集体中每个规则知足早先指定的合适度值
3.数据发掘的应用
数据发掘技术已应用于很多领域,如在学校、银行、电信、股市、保险、交通、
零售等领域已获取宽泛的应用。
3.1数据发掘技术在高校中的应用
跟着招生规模的扩大,高校的学生人数就达到上万人,甚至几万人,考试成绩达到几十万个数据,还有大批的学习成绩之外的影响要素,传统的学习成绩剖析方法已不可以完整知足需要,对此引入数据发掘技术以找到影响学生成绩的真切原由,拟订相应的举措,提升教育教课质量。
3.2数据发掘技术在金融公司中的应用
3.2.1数据发掘技术在证券行业中获取宽泛应用,数据发掘技术作为剖析与
协助决议工具已经愈来愈获取国内券商的重视。
3.2.2数据发掘技术也应用于银行业,数据发掘能够从大批的历史记录中发
现或发掘出这类关系关系更深层次的、更详细的方面。
3.2.3数据发掘技术也应用于保险业
保险金确实定:
对受险人员的分类有助于确立合适的保险金额度。
经过数据发掘能够获取对不一样行业的人、不一样年纪段的人、处于不一样社会层次的人的保险金该怎样确立。
险种关系剖析:
剖析购置了某种保险的人能否同时购置另一种保险。
展望什么样的顾客会购置新险种。
3.3数据发掘技术在零售公司中的应用
从商场销售管理系统、客户资料管理及其余营运数据中,能够采集到对于商品
销售、客户信息、库存及商场店面信息等的信息资料。
数据从各样应用系统中采集,
经按不一样条件分类,寄存到数据库房,同意管理人员、剖析人员、采买人员、市场
人和客,利用数据发掘工具些数据行剖析,管理者供给高效的科学决议工具。
4.数据发掘用例
4.1提出。
一个自行厂商想要通广告宣来吸引客。
他从各地的
商场得商场会的信息,划将广告册和礼物投些会。
可是投广告册
是需要成本的,不行能投所有的商场会。
而些会中有的人会响广告宣
,有的人就算获取广告册不会。
所以最好是将广告投那些广告册感
趣进而自行的会。
分模型的作用就是出什么的会可能自行
。
4.2自行厂商第一从所有会中抽取了1000个会,向些会投广告
册,而后些收到广告册的会能否了自行。
数据如表1所示。
表1.
会员实例模型数据
案例列
会号
12496
14177
24381
25597
⋯⋯
婚姻状况
Married
Married
Single
Single
⋯⋯
性
Female
Male
Male
Male
收入
40000
80000
70000
30000
孩子数
1
5
0
0
教育背景
Bachelor
Partial
Bachelors
Bachelor
入列
s
College
s
Skilled
Professiona
Profession
Clerical
Manual
l
al
能否有房
Yes
No
Yes
No
汽数
0
2
1
0
上班距离
0-1Miles
2-5Miles
5-10Miles
0-1Miles
地区
Europe
Europe
Pacific
Europe
年纪
42
60
41
36
展望列
能否购置自行车
No
No
Yes
Yes
在分类模型中,每个会员作为一个案例,居民的婚姻状况、性别、年纪等特点作为输入列,所需展望的分类是客户能否购置了自行车。
4.3训练数据集填补模型
使用1000个会员案例训练模型后获取的决议树分类如图1所示:
图1.会员案例训练模型后获取的决议树分类
4.3.1图中矩形表示一个拆分节点,矩形中文字是拆分条件。
矩形颜色深浅代表此节点包含案例的数目,颜色越深包含的案例越多,如所有
节点包含所有的1000个案例,颜色最深。
经过第一次鉴于年纪的拆分后,年纪大
于67岁的包含36个案例,年纪小于32岁的133个案例,年纪在39和67岁之间
的602个案例,年纪32和39岁之间的229个案例。
所以第一次拆分后,年纪在39
和67岁的节点颜色最深,年纪大于67岁的节点颜色最浅。
节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的案例购置和不购
买自行车的比率。
如节点“年纪>=67”节点中,包含36个案例,此中28个没有购置自行车,8个购置了自行车,所以蓝色的条比红色的要长。
表示年纪大于67的会员有74.62%的概率不购置自行车,有23.01%的概率购置自行车。
4.3.2在图中,能够找出几个实用的节点:
1.年纪小于32岁,居住在太平洋地域的会员有72.75%的概率购置自行车;
2.年纪在32和39岁之间的会员有68.42%的概率购置自行车;
3.年纪在39和67岁之间,上班距离不大于10公里,只有1辆汽车的会员有
66.08%的概率购置自行车;
4.年纪小于32岁,不住在太平洋地域,上班距离在1公里范围内的会员有
51.92%的概率购置自行车;
4.4模型训练后,还没法确立模型的分类方法能否正确。
能够用模型对
300个
会员的查验集进行查问,查问后,模型会展望出哪些会员会购置自行车,将展望的状况与真切的状况对照,评估模型展望能否正确。
假如模型正确度能知足要求,就能够用于对新会员进行展望。
4.5在获取了分类模型后,将其余的会员在分类模型中查找便可展望会员购置
自行车的概率有多大。
随后自行车厂商就能够有选择性的送达广告册。
5.结束语
本文总结了数据发掘的定义、目标、有关领域及其一般方法,鉴于数据发掘技
术数据资料之丰富,此刻在论文中提到的有关领域已有了一些数据发掘技术的模
型,限于篇幅不再一一列举。
作为一个新兴的研究领域,数据发掘仍旧有很多问题
需要进行深入研究。
比如:
从同一个数据库的不一样层次上提取相应的规则;确立一种
方便、适用、一致的语言表达数据发掘的结果;应用数据发掘技术,鉴于动向数据
库、面向对象技术、多媒体数据库及从国际互连网上抽取新的、实用的规则。
自然,
数据发掘技术相同应当包含对于所抽取规则的正确性及数据的安全性、私密性的保
护等领域的研究。
数据发掘技术是一个发展十分快的领域,跟着对数据发掘技术在各领域日趋
宽泛的应用,实现了数据资源共享及技术发展的跨域,进而大大提升了工作效率,
并带来巨大的成功。
21世纪是信息时代的社会,“信息不单是资源,更是财产”,要
实现经济的腾跃,需依靠高新尖科技的发展,故利用供给的信息,充足进行数据挖
掘,则将为数据库的应用开拓了广阔的远景,也为人类的文明开拓了一个崭新的时
代。
参照文件
[1].苏新宁,杨建林,江念南。
数据库房和数据发掘
[M].2006;
[2].谭建豪。
数据发掘技术[M].2009;
[3].davidhand,heikikimanrlla等著。
宋俊,廖丽等译[M].2003;
[4].数据发掘议论组,数据发掘资料汇编;
[5].朱明,数据发掘.合肥:
中国科技大学第一版社2002,5;
[6].张春阳,周继恩,刘贵全,蔡庆生.鉴于数据库房的决议支持系统的建立,计算机工
程.2002(4):
249-252;
[7].JiaweiHan,MiechelineKamber著。
范明,孟小峰译。
数据发掘观点与技术。
机械工业
第一版社。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 及其 应用