可视化空间数据挖掘研究综述Word文件下载.doc
- 文档编号:4640401
- 上传时间:2023-05-03
- 格式:DOC
- 页数:7
- 大小:64KB
可视化空间数据挖掘研究综述Word文件下载.doc
《可视化空间数据挖掘研究综述Word文件下载.doc》由会员分享,可在线阅读,更多相关《可视化空间数据挖掘研究综述Word文件下载.doc(7页珍藏版)》请在冰点文库上搜索。
可视化方法不仅用于数据的理解,而且用于空间知识的呈现。
可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘作者1简介:
贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。
作者2简介:
刘耀林(1960,9-),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。
与知识发现的一个新的研究热点——可视化空间数据挖掘(VisualSpatialDataMining,VSDM)。
VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。
本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。
一、空间数据挖掘研究概述
1.1空间数据挖掘的诞生及发展
1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledgediscoveryindatabase,KDD)的概念,标志着数据挖掘技术的诞生[1]。
此时的数据挖掘针对的一般是非空间数据,其研究和应用的成果势必对空间数据的利用造成影响。
在数据挖掘技术发展与海量空间数据积累的推动下,为了引导地球空间信息学向更深的层次发展,国内外对空间数据挖掘展开了积极的研究。
加拿大西蒙法拉色大学计算机科学系的韩家炜教授领导的研究小组,较早对空间数据挖掘进行系统全面的研究[1]。
1994年,在加拿大渥太华举行的GIS国际学术会议上,我国著名地球信息科学学者李德仁院士首次提出了从GIS数据库中发现知识(knowledgediscoveryfromGIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数据变成无限的知识,并进一步用于精练和更新GIS数据,使GIS成为智能化的信息系统[2]。
1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据库中的数据被形象地喻为矿床,再次出现了崭新的数据挖掘(datamining,DM)学科。
由于DM和KDD较为常用且难以分离,而且DM通常被认为是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤,即数据挖掘和知识发现(dataminingandknowledgediscovery,DMKD)。
同时,李德仁院士也把KDD进一步发展为空间数据挖掘和知识发现(SDMKD),系统地研究或提出了可用的理论、技术和方法,并取得了很多创新性成果[2~7],奠定了空间数据挖掘和知识发现在地球空间信息学中的学科地位和基础。
经过10多年的发展,空间数据挖掘已经显示出在空间数据处理分析中具有越来越重要的作用,SDMKD目前已经成为国际研究和应用的热点,国内外对SDMKD的研究应用也正愈来愈引起人们的极大关注,并且取得了相当的理论和技术成就。
如:
李德仁院士最早开始关注空间数据挖掘和知识发现[2],不仅在国际上第一次提出了空间数据挖掘和知识发现的概念,而且率先研究了从GIS数据库中发现知识[4],构筑了空间数据挖掘和知识发现的理论框架[5],系统研究了粗集和云理论在空间数据挖掘中的理论和技术[2,6],提出了用于空间数据挖掘的地学粗空间理论。
王树良博士在李德毅院士的云理论的基础上,完善了数据场的概念,提出了空间数据挖掘视觉的概念及实现方法,并成功地应用于滑坡监测数据挖掘,取得了较好的成果[8]。
秦昆博士在对图像数据挖掘的理论与方法进行系统研究的基础上,针对图像(遥感图像)数据中蕴涵的内容,如光谱特征、纹理特征、形状特征、空间分布特征等来进行挖掘,挖掘出抽象层次更高的知识,并研究出了遥感图像数据挖掘软件原型系统的框架,设计和开发了遥感图像数据挖掘软件原型系统RSImageMiner[9]。
Murray和Estivill_Castro[10]回顾了探测性空间数据分析的聚类发现技术,分析了基于统计学、数据挖掘和地理信息系统的空间模式识别和知识发现方法。
Koperski,Adhikary和Han[11]总结了空间数据挖掘的发展,认为巨量的空间数据来自从遥感到GIS、计算机制图、环境评价和规划等各种领域,空间数据的累积已经远远超出人们的分析能力,数据挖掘已经从关系数据库和交易数据库扩展到空间数据库。
他们就空间数据生成、空间数据聚类和挖掘空间数据关联规则等方面总结了空间数据挖掘的最近发展。
Han和Kamber[12]在其数据挖掘专著中,系统讲述了空间数据挖掘的概念和技术。
汪闽和周成虎[13]根据自己的认识讨论了空间数据挖掘的研究进展。
总体上讲,经过十多年的发展,SDMKD无论是其理论研究还是相关软件原型的研制目前都已得到蓬勃发展并已逐渐走向成熟。
1.2空间数据挖掘的概念、方法和理论
空间数据挖掘(SpatialDataMining,SDM)指的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中有意义的特征或模式等[14]。
SDM需要综合数据挖掘(DataMining,DM)与空间数据库技术,可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现、空间知识库的构造、空间数据库的重组和空间查询的优化等[15]。
SDM是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段多学科交叉的新兴边缘学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。
SDM的方法很多,根据发现对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异质数据库、互联网Web等;
根据发现方法可分为机器学习方法(归纳学习、决策树、规则归纳、基于范例学习、遗传算法)、统计方法(回归分析、判别分析、聚类分析、探索性分析)、神经网络方法(BP算法、自组织神经网络)、数据库方法;
根据发现任务可分为分类、聚类、关联规则发现、时间序列预测、演化规则发掘等。
按数据挖掘的目的来划分,常用的空间数据挖掘技术包括:
空间数据概化、空间规则挖掘、空间分类、空间趋势预测、空间聚类、空间离群点查找等。
一般地,SDM可以分成4类挖掘方法:
空间分类和预测、空间聚类、空间孤立点和空间关联规则。
关于SDM的理论和方法,王新洲等[16]进行了详细的讨论。
概括起来,其可用的理论方法有:
概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、模糊集、云理论、粗集、神经网络、遗传算法、决策树、空间在线数据挖掘、分类分析、预测、关联规则分析、时间序列分析、熵空间理论、形式概念分析理论(概念格理论)等。
这些理论和方法都是自成体系的,不是SDM自身的理论体系。
因此,王新洲教授认为,关于SDM理论的研究应重点放在构建SDM系统的理论框架上,不能简单地将各种现成理论统归于SDM理论。
并提出SDM的系统理论框架应由三大部分构成[17]:
SDM的基础理论、SDM的技术方法和SDM结果的质量评价体系。
二、可视化研究概述
可视化(Visualization)技术是指将描述自然、社会状况的数字、字符等信息转换为人类直观可视的图像,以从中洞察自然、社会本质的技术。
它向人们提供一种方法和手段,即以人们惯于接受图形、图像并辅之以信息处理技术,将被感知、被认知、被想象、被推理、被综合及被抽象了的对象属性及其变化发展的形式和过程,通过形象化、模拟化、仿真化、现实化的技术手段表现出来,利用这种方法和手段人们可以观察人们所不能观察到的事务或概念,其目标是帮助人们增强认知能力。
基于计算机的可视化技术不仅仅把计算机作为信息集成处理的工具,用计算机图形和其他技术来考虑更多的样本、变量和联系。
它更是用户之间的一种交流媒介,在认知激励和用户认知之间建立起一个反馈环。
可视化不仅是客观现实的形象再现,也是客观规律、知识和信息的有机融合。
根据研究的对象、目的及方式的不同,可视化可以分为科学可视化、数据可视化、信息可视化、知识可视化[18]。
一般情况下,研究较多的可视化技术多指数据可视化。
数据可视化是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,具有交互性、多维性和可视性[19]三大特点。
它拓宽了传统的图标功能,使用户对数据的剖析更加清晰,并可以控制数据分析过程[20,21]。
人类的认知系统可以识别空间三维物体,对于抽象的物体或者像素的识别很困难。
空间的可视性最多能够达到四维。
目前,可视化方法研究主要体现在以下几个方面:
(1)空间三维图形:
不同的图形元素的组合的变换映射为不同的数据维解释。
把一个可视化空间结构和一条数据信息对应起来。
通过图形的密度和颜色的分布,大致能够了解数据的分布、数据之间的相似性和数据之间的关系。
(2)颜色图:
分为彩色图和灰度图。
彩色图的每一种颜色,对应着不同的属性维,灰度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深,数值越大或者用它来强调某种特别的信息,它通常预先需要很好的映射定义。
(3)亮度:
对于特定的区域,用不同的亮度来辅助人眼对视点的观察。
(4)数学的方法:
利用数学中统计的方法,先对数据关系进行分析,得到数据的大体分布信息,然后再结合其它的可视化方法来进行细节数据分析。
或者利用数学中统计的方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。
目前,对可视化的研究多集中在多维数据可视化的研究方面,对此,任东怀等[22]对多维数据可视化中采用的主要视图变换方法、目前主要的多维数据可视化技术(包括:
ScatterplotMatri技术、几何图技术、图标技术、平行坐标技术、Hierarchy技术以及Treemap、ConeTrees等层次化技术等)以及主要的降维技术等进行了详细的阐述。
三、可视化空间数据挖掘
为了在数据挖掘过程中将人类的灵活性、创造力和通用的常识与计算机强大的计算和存储功能结合起来,从而将可视化技术应用到数据挖掘中,产生了可视化数据挖掘技术。
因此,用户可以根据可视化的视觉反馈指导更快地研究数据的更多特性。
数据挖掘中的可视化技术根据是否包括物理数据,可粗略地分为两类:
科学计算可视化和信息可视化。
科学计算可视化显示的对象涉及标量、矢量和张量等不同类别的空间数据,研究的重点放在如何真实、快速地显示三维数据场。
信息可视化研究的对象主要是显示多维的标量数据,研究的重点放在设计和选择合适的显示方式表示庞大的多维数据及其相互之间的关系,是从数据信息到可视化形式再到人的感知系统的可调节的映射。
SDM针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境。
在SDM中可视化对于知识发现和知识构建有两个显著的优点:
提供高度的交互功能,让用户比较自由地发挥自己的能动性,控制数据挖掘过程;
提供丰富的可视化表现能力,从空间数据的各维、各角度同时展开分析,有利于用户更深入地理解问题和选用更适当的数据挖掘模型算法。
3.1空间数据挖掘中可视化技术的提出及现状
数据挖掘可视化技术来源于美国国家基金会(NSF)的报告《科学计算中的可视化》,最初用于绘制物理数据的可观察属性,后来逐步应用于抽象信息的直观表达,用来揭示信息之间的关系和信息中隐藏的特征。
随着人机交互技术和认知技术的运用,刻画数据之间复杂关系的数据挖掘过程和结果的可视化成为可能。
自2001年起连续3年分别在欧洲“机器学习暨KDD理论与实践”和IEEE第三届国际数据挖掘会议期间召开了国际性的可视化数据挖掘(VDM)专场学术研讨会。
SDM的可视化分为二维(x,y)、三维(x,y,z)和四维(x,y,z,t)可视化,如果分别对它们按时间序列实时处理,就可以形成较全面地反映数据挖掘过程和知识的动画。
建立在可视化基础之上的SDM可视化理论和技术,将对空间信息可视表达、分析的研究与实践产生更大的影响。
在此方面已有很多学者进行了相应的研究。
如Kriegel等[23]利用可调的多参数函数分段逼近空间物体表面,然后以此为基础挖掘空间分布知识,并用误差椭圆评估可视化的知识。
Ravantti和Bamford[24]用三维可视化的空间数据挖掘技术分析了用于表示高分子结构的密度图,兼顾了感兴趣的确定部分和可能的扩展部分。
Ankerst等[25]分析了空间目标的形状属性,利用3D形状的直方图表示空间数据库中的相似搜寻和分类。
Maceachren等[26]集成了地理可视化和空间数据挖掘,从结构化的多元时空数据集中构筑知识。
3.2空间数据挖掘中可视化技术的应用
SDM的每一步流程均能够同可视化结合起来:
包括数据选取过程、数据预处理、SDM算法的分析处理、SDM结果的解释和表达,可视化贯穿于SDM整个流程当中,可视化手段对于知识的提炼、整理和表现都至关重要。
因此,将SDM过程置于可视化的环境之下,二者的结合促使数据挖掘经历一个数据可视化——挖掘算法的应用——挖掘结果的验证和可视化表达——挖掘算法的进一步改进和完善的循环往复的提高过程,可视化在其中扮演重要角色。
目前SDM中可视化技术的应用主要体现在以下几个方面:
(1)数据可视化。
数据库和数据仓库中的数据可看作具有不同的粒度或不同的抽象级别,也可以看作是由不同属性和维组合起来的。
数据能用多种可视化方式进行描述,比如盒状图、三维立方体、数据分布图表、曲线、曲面、连接图等,或者以上几种方法的任意组合,完成数据组织的可视化。
传统的几何方法如点图,线图,柱状图,饼图等。
数据分析的目的不同,采用的方法也不同。
目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。
(2)挖掘过程的可视化。
即指数据挖掘过程的各个环节用可视化的方式表现出来,用户可从中直观地看到内容,如:
数据从哪个数据仓库或数据库抽取出来;
数据怎样被抽取;
所选择的数据是如何经过清理、预处理、集成和挖掘的;
数据挖掘过程中哪种数据挖掘算法被选取;
结果如何存储和显示的。
这方面值得一提的是一个开源的数据挖掘软件产品——Weka,Weka用可视化的形式描述各种数据挖掘过程,用户可以看出数据是怎样清洗、转换和挖掘的。
(3)挖掘模型的可视化。
并不是每个用户都是数据挖掘方面的专家;
用户事先也不知道数据挖掘能发现什么样的信息;
有些模型很难被理解。
因此我们必须把数据挖掘模型转换成最自然的表示。
只有这样,才能更有效地理解模型,然后采取行动。
另外,有些模型得到的结果很庞大,如关联规则。
有可能一次数据挖掘得到许多的规则,如何从这些规则中发现感兴趣的是一个辣手的问题。
因此,模型可视化主要可以考虑两个方面:
让模型输出可视化和交互操纵。
即挖掘模型输出时用一种有意义的方式表示,同时允许用户操纵模型,改变模型输入以观察模型输出的变化。
(4)挖掘结果的可视化。
既将数据挖掘得到的知识或结果用可视化的形式表示出来,这些形式包括盒图、散列图、决策树、簇、概化规则等。
在数据挖掘系统和产品方面早期比较著名的有加拿大SimonFraser大学的HanJiawei博士等人开发的OLAP挖掘系统DBMiner2.0,提供了对挖掘结果进行交互式可视化的功能,其他的还有IBM的IntelligentMiner,PolarSystem,SAS的EnterpriseMiner,Minset3.0等都是提供数据挖掘结果可视化功能的数据挖掘软件。
(5)数据挖掘交互式可视化。
数据挖掘交互式可视化把用户引入到挖掘过程当中,使具有灵活性、创造性和大量知识的人能与具有强大处理能力和海量存储能力的计算机相结合,在交互式数据挖掘过程中,帮助用户作出明智的数据挖掘决策。
Nigel等提出了针对企业用户的一个数据挖掘的试验性过程,指出数据挖掘应该在整个过程中都提供可视化,而不仅仅在结果呈现时才将可视的信息展现给用户,这样用户能够掌握的信息就会更多,数据挖掘也可以更充分的应用人脑中的知识。
基于此理念,Nigel等人还开发了一个数据挖掘交互式可视化软件VDEM(VitualDataMiningEnvironment),将人设置在虚拟环境中来找到解决数据挖掘问题的线索。
(6)可视化数据挖掘与GIS的结合。
数据挖掘可以利用GIS作为可视化的有效手段,如加拿大SimonFraser大学开发了建立在MapInfo基础上的可视化数据挖掘系统GeoMiner,该系统通过GMQL查询语言作为空间数据挖掘查询工具,用户可以动态地以图形、图表和地图的形式操作和观察数据挖掘过程。
德国国家信息技术中心研发了基于Web的空间数据挖掘系统SPIN,其实质是将交互式地图设计工具Descarts与空间数据挖掘(机器学习和贝叶斯统计)的数据分析工具结合起来。
美国宾夕法尼亚大学的Apoala项目研发了一种将地理可视化技术同空间知识发现紧密结合用于复杂多维环境数据的分析处理方法。
在目前针对可视化空间数据挖掘提出的屈指可数的系统中,有代表性的是基于Linux系统的XGobi。
运行时,XGobi与ArcView3.0构成一个松散集成环境。
这一环境通过动态连接两种软件:
GIS软件——ArcView和多维数据可视化工具——XGobi,充分利用二者的优势,以动态地图为主体,动态关联多种多维数据可视化技术的可视化表达方式,协同完成空间数据挖掘可视化的任务。
四、结束语
目前,可视化技术在数据挖掘中一般是作为表达工具,如生成最初的视图,解析复杂结构的数据和显示分析结果。
可视化与分析数据挖掘技术之间的松散关系代表了当今可视化数据挖掘系统的主要状况。
现有的相互插入策略,只是简单将分析过程和图形可视化交错在一起,这突出了两者的欠缺和限制。
当前的可视化数据挖掘方法大致可以划分为以下几种:
(1)由传统的可视化方法组成或者独立于数据挖掘算法。
(2)描述了通过数据挖掘算法抽取的模式,从而有助于对模式更好的理解。
(3)在数据挖掘算法运行过程当中,允许用户通过可视化进行指导、操控。
目前几乎所有已经提出的可视化数据挖掘方法都属于第一组或第二组。
一个更强的可视数据挖掘策略依赖于将可视化与分析过程紧密结合起来形成一个统一强大的可视数据挖掘工具。
目前,使人类可视地参与到分析过程中以实现决策支持依然是一个主要的挑战。
因此,未来的工作包括两个方面,一是针对复杂的信息结构如Web数据和文本等半结构化、非结构化的数据开发合适的可视化挖掘方法;
二是将各种可视化方法与来自统计学、机器学习、运筹学、仿真技术的传统方法紧密结合,融入到数据挖掘的过程中,把快速、自动的数据挖掘算法与人脑的认知能力、判断能力结合起来,改善可视化数据挖掘过程的质量和速度。
最终的目标是使得基于计算机的可视化数据挖掘系统具有简单性、可见性、用户自主性、可靠性、可重用性和安全性,具有更好、更快速、更直观地探索大型数据资源的能力。
参考文献:
[1]王树良.基于数据场与云模型的空间数据挖掘和知识发现[D].武汉:
武汉大学,2002
[2]LiDR,ChengT.KDG——KnowledgeDiscoveryfromGIS.TheCanadianConferenceonGIS,Ottawa,Canada,1994:
1001~1012
[3]WangShuliang,LiDeren,LiDeyi,etal.CloudModels-BasedSDMKD,Geoinformatics’2002:
GISandRemoteSensingforGlobalChangeStudiesandSustainableDevelopment[J].InternationalAssociationofChineseProfessionalsinGeographicInformationScience(CPGIS),2002,C54:
1~11
[4]王树良,李德仁,史文中等.地学粗空间的理论与应用[J].武汉大学学报·
信息科学版,2002,27(3):
274~282
[5]李德仁,王树良,史文中等.论空间数据挖掘和知识发现[J].武汉大学学报·
信息科学版,2001,26(6):
491~499
[6]李德仁,王树良,李德毅等.论空间数据挖掘和知识发现的理论和方法[J].武汉大学学报·
信息科学版,2002,27(3):
221~233
[7]王树良,李德仁,史文中等.地学粗空间的理论与应用[J].武汉大学学报·
[8]王树良,王新洲,曾旭平等.滑坡监测数据挖掘视角[J].武汉大学学报·
信息科学版,2004,29(7):
608~610
[9]秦昆.基于形式概念分析的图像数据挖掘研究[D].武汉:
武汉大学,2004
[10]MurrayAT,Estivill_castroV.ClusteringDiscoveryTechniquesforExploratorySpatialDataAnalysis.InternationalJournalofGeographicalInformationScience,1998,12(5):
431~443
[11]KoperskiK,AdhikaryJ,HanJ.SpatialDataMining:
ProcessandChallengesSurveyPaper.SIGMOD’96WorkshoponResearchIssuesonDataMiningandKnowledgeDiscovery(DMKD’96),Montreal,Canada,1996
[12]HanJ,KamberM.DataMining:
Concepts
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可视化 空间 数据 挖掘 研究 综述
![提示](https://static.bingdoc.com/images/bang_tan.gif)