数据挖掘研究现状及发展趋势Word格式文档下载.docx
- 文档编号:8385175
- 上传时间:2023-05-11
- 格式:DOCX
- 页数:8
- 大小:55.86KB
数据挖掘研究现状及发展趋势Word格式文档下载.docx
《数据挖掘研究现状及发展趋势Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘研究现状及发展趋势Word格式文档下载.docx(8页珍藏版)》请在冰点文库上搜索。
随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。
这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,迫切需要能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。
在这种情况下,一个新的技术———数据挖掘(DataMining,DM)技术应运而生[2]。
数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。
只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。
数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。
本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。
2数据挖掘算法
数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程[3]。
数据挖掘过程如图1所示。
这些数据的类型可以是结构化的、半结构化的、甚至是异构型的。
发现知识的方法可以是数学的、非数学的、也可以是归纳的。
最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等[4]。
图1数据挖掘过程
目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
2.1神经网络法
神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。
神经网络的学习方法主要表现在权值的修改上。
其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;
缺点是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性,输出结果也难以解释;
其次是需较长的学习时间。
神经网络法主要应用于数据挖据的聚类技术中。
2.2决策树法
决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。
最典型的算法是J.R.QUINLAN于1986年提出的ID3算法[5],之后在ID3算法的基础上又提出了极其流行的C4.5算法[6]。
采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;
缺点是很难基于多个变量组合发现规则。
决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。
2.3遗传算法
遗传算法是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
它的基本观点是“适者生存”原理,具有隐含并行性、易于和其它模型结合等性质主要的优点是可以处理许多数据类型,同时可以并行处理各种数据,对问题的种类有很强的鲁棒性;
缺点是需要的参数太多,编码困难,一般计算量比较大。
遗传算法常用于优化神经元网络,解决其它技术难以解决的问题。
2.4粗糙集法
粗糙集法也称粗糙集理论,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。
其优点是算法简单,不需要关于数据的任何预备的或额外的信息;
缺点是难以直接处理连续的属性,须先进行属性的离散化。
因此,连续属性的离散化问题是制约粗糙集理论实用化的难点[7]。
粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。
2.5模糊集法
模糊集法利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。
模糊集合理论是用隶属度来描述模糊事物的属性[7]。
系统的复杂性越高,模糊性就越强。
2.6关联规则法
关联规则反应了事物之间的相互依赖性或关联性。
其最著名的算法是R.AGRAWAL等人提出的Apriori算法。
最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。
在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。
3数据挖掘研究现状
3.1国外研究现状
知识发现[8](KnowledgeDiscoveryinDatabases,KDD)与DM是数据库领域中最重要的课题之一。
KDD一词是在1989年8月于美国底特律市召开的第十一届国际人工智能会议上正式形成的。
1995年在加拿大蒙特利尔召开的首届KDD&
DataMining国际学术会议上,把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘[9]。
之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。
目前,对KDD的研究主要围绕理论、技术和应用这三个方面展开。
多种理论与方法的合理整合是大多数研究者采用的有效技术。
目前,国外数据挖掘的最新发展主要有对发现知识的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;
KDD与数据库的紧密结合;
传统的统计学回归方法在KDD中的应用。
在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。
许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心[10]。
美国是全球数据挖掘研究最繁荣的地区,并占据着研究的核心地位。
由于数据挖掘软件市场需求量的增大,包括国际知名公司在内的很多软件公司都纷纷加入到了数据挖掘工具研发的行列中来,到目前已开发了一系列技术成熟、应用价值较高的数据挖掘软件。
以下为目前最主要的数据挖掘软件:
(1)KnowledgeStudio:
由Angoss软件公司开发的能够灵活地导入外部模型和产生规则的数据挖掘工具。
最大的优点:
响应速度快,且模型、文档易于理解,SDK中容易加入新的算法。
(2)IBMIntelligentMiner:
该软件能自动实现数据选择、转换、发掘和结果呈现一整套数据挖掘操作;
支持分类、预测、关联规则、聚类等算法,并且具有强大的API函数库,可以创建定制的模型。
(3)SPSSClementine:
SPSS是世界上最早的统计分析软件之一。
Clementine是SPSS的数据挖掘应用工具,它可以把直观的用户图形界面与多种分析技术如神经网络、关联规则和规则归纳技术结合在一起。
该软件首次引入了数据挖掘流概念,用户可以在同一个工作流环境中清理数据、转换数据和构建模型。
(4)CognosScenario:
该软件是基于树的高度视图化的数据挖掘工具,可以用最短的响应时间得出最精确的结果。
此外,还有由美国Insightful公司开发的I-Miner、SGI公司和美国Standford大学联合开发的Minset、Unica公司开发的AffiniumModel、加拿大SimonFraser大学开发的DBMiner、HNC公司开发的用于信用卡诈骗分析的DatabaseMiningWorkstation、NeoVista开发的DecisionSeries等。
3.2国内研究现状
与国外相比,国内对数据挖掘的研究起步稍晚且不成熟,目前正处于发展阶段。
最新发展:
分类技术研究中,试图建立其集合理论体系,实现海量数据处理;
将粗糙集和模糊集理论二者融合用于知识发现;
构造模糊系统辨识方法与模糊系统知识模型;
构造智能专家系统;
研究中文文本挖掘的理论模型与实现技术;
利用概念进行文本挖掘。
我国也有不少新兴的数据挖掘软件:
(1)MSMiner:
由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台[11]。
该平台对数据和挖掘策略的组织有很好的灵活性。
(2)DMiner:
由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。
该系统提供了丰富的数据可视化控件来展示分析结果,实现了数据查询结果可视化、数据层次结构可视化、多维数据结构可视化、复杂数据可视化。
(3)ScopeMiner:
由东北大学开发的面向先进制造业的综合数据挖掘系统。
(4)iDMiner:
由海尔青大公司研发的具有自主知识产权的数据挖掘平台。
该平台大胆采用了国际通用业界标准,对该软件今后的发展有很大的促进作用,同时也为国内同类软件的开发提供了一条新的思路[12]。
除此之外,还有复旦德门公司开发的CIAS和ARMiner、东北大学软件中心开发的基于SAS的OpenMiner以及南京大学开发的一个原型系统Knight等。
目前,国内数据挖掘软件产业还不成熟,从事此方面研究的人员主要集中在高校,只有少部分分布在研究所或公司,且大多数研究项目都是由政府资助,主要的研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。
研究的产品尚未得到国际市场的认可,在国际上的使用更是为数甚少。
4数据挖掘的研究热点及发展趋势
就目前来看,数据挖掘的几个研究热点主要包括网站的数据挖掘(WebSiteDataMining)、生物信息或基因(Bioinformatics/Genomics)的数据挖掘及其文本的数据挖掘(TextualMining)[13]。
网站的数据挖掘就是从网站的各类数据中得到有价值的信息,与一般的数据挖掘差别不大,但是其数据格式很大一部分来自于点击率,与传统的数据库格式有区别。
生物信息或基因的数据挖掘对人类生存发展有着非常重要的意义,基因的组合千变万化,能否找出病人的基因和正常人的基因的不同之处,进而对其加以改变,这就需要数据挖掘技术的支持。
但其数据形式、挖掘算法模型比较复杂。
文本的数据挖掘和一般的数据挖掘相差很大,是指从文本数据中抽取有价值的信息和知识的技术,在分析方法方面比较困难,目前还没有真正的具备分析功能的文本挖掘软件。
随着越来越多的业务需求被不断开拓,数据挖掘已成功应用于社会生活的方方面面,目前在很多领域如商业、医学、科学研究等均有不少成功的应用案例。
为了提高系统的决策支持能力,像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来。
多种理论与方法的合理整合是大多数研究者数据挖掘采用的有效技术[14]。
以下是未来比较重要的数据挖掘发展趋势:
(1)数据挖掘语言的标准化描述:
标准的数据挖掘语言将有助于数据挖掘的系统化开发。
改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。
(2)寻求数据挖掘过程中的可视化方法:
可视化要求已经成为数据挖掘系统中必不可少的技术。
可以在发现知识的过程中进行很好的人机交互[15]。
数据的可视化起到了推动人们主动进行知识发现的作用。
(3)与特定数据存储类型的适应问题:
根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。
(4)网络与分布式环境下的KDD问题:
随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的[16]。
因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
(5)应用的探索:
随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等领域。
由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。
(6)数据挖掘与数据库系统和Web数据库系统的集成:
数据库系统和Web数据库已经成为信息处理系统的主流。
数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合[17]。
5结语
针对数据挖掘的主要算法,分析了各自的优缺点及其所适用的领域,并根据目前国内外数据挖掘的研究现状和研究热点指出了未来几年数据挖掘的发展趋势。
目前数据挖掘逐渐从高端的研究转向常用的数据分析,在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策。
尽管如此,数据挖掘技术仍然面临着许多问题和挑战,如超大规模数据集中的数据挖掘效率有待提高,开发适应于多数据类型、容噪的挖掘方法,网络与分布式环境下的数据挖掘,动态数据和知识的数据挖掘等。
总之,数据挖掘只是一个强大的工具,它不会在缺乏指导的情况下自动地发现模型,而且得到的模型必须在现实生活中验证,数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解决问题的领域,理解数据,了解其过程,只有这样才能解释最终所得到的结果,从而促使挖掘模型的不断完善和提高,使得数据挖掘真正地满足信息时代人们的要求,服务于社会。
参考文献
[1]胡侃,夏绍玮.基于大型数据仓库的数据采掘:
研究综述[J].软件学报,1998,9
(1):
53-63.
[2]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,2
(1):
46-49.
[3]HANJiawei,KAMBERM.数据挖掘:
概念与技术[M].范明,孟小峰,译.北京:
机械工业出版社,2001.
[4]陕粉丽.数据挖掘技术的研究现状及应用[J].现代企业教育,2008(6):
101-102.
[5]QUINLANJR.InductionofDecisionTrees[J].MachineLearning,1986,1
(1):
8.
[6]QULINLANJR.C4.5:
ProgramsforMachineLearning[M].SanMateo,Calif:
MorganKaufmann,1993.
[7]李华,刘帅,李茂,等.数据挖掘理论及应用研究[J].断块油气田,2010,23
(1):
88-89.
[8]FAYYADU,PIATESKY-SHAPIROG,SMYTHP.TheKDDProcessforExtractingUsefulKnowledgeFromVolumesofData[J].CommunicationoftheACM,1996,39(11):
27-34.
[9]陈文臣.Web日志挖掘技术的研究与应用[D].北京:
中国科学院研究生院,2005.
[10]夏艳军,周建军,向昌盛.现代数据挖掘技术研究进展[J].江西农业学报,2009,21(4):
82-84.
[11]游湘涛,叶施仁,史忠植.多策略通用数据采掘工具MSMiner[J].计算机研究与发展,2001,38(5):
581-586.
[12]王立伟.数据挖掘研究现状综述[J].图书与情报,2008(5):
42-46.
[13]施伯乐,朱扬勇.数据库与智能数据分析技术:
技术、实践与应用[M].上海:
复旦大学出版社,2003.
[14]郭萌,王珏.数据挖掘与数据库知识发现:
综述[J].模式识别与人工智能,1998,11(3):
292-299.
[15]FAYYADUM,DJORGOVSKISG,WEIRN.FromDigitizedImagestoOnlineCatalogsDataMiningaSkySurvey[J].AIMagazine,1996,17
(2):
51-66.
[16]UTHURUSAMYR.FromDataMiningtoKnowledgeDiscovery:
CurrentChallengesandFutureDirections[C]//FAYGADU.AdvancesinKnowledgeDiscoveryandDataMining.TheMITPress,1996:
561-569.
[17]陶翠霞.浅谈数据挖掘及其发展状况[J].科技信息,2008(4):
72.
7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 研究 现状 发展趋势