空间数据挖掘技术研究进展王海起.docx
- 文档编号:15379600
- 上传时间:2023-07-04
- 格式:DOCX
- 页数:19
- 大小:28.25KB
空间数据挖掘技术研究进展王海起.docx
《空间数据挖掘技术研究进展王海起.docx》由会员分享,可在线阅读,更多相关《空间数据挖掘技术研究进展王海起.docx(19页珍藏版)》请在冰点文库上搜索。
空间数据挖掘技术研究进展王海起
空间数据挖掘技术研究进展
王海起1,2,3,王劲峰1
(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;
2.中国石油大学(华东)地球资源与信息学院,山东东营257061;3.中国科学院研究生院,北京100039)
访问方法之上分析空间趋势,需要使用回归和
相关的分析方法。
由于空间对象自身的特殊性,传
统的回归模型可能并不合适。
例如,传统的线性回
归模型(y=Xβ+ε)对空间对象就不适用,需要使用
空间自回归SAR模型[19]:
y=ρWy+Xβ+ε。
(7)数字图像分析和模式识别方法。
空间数据
库(数据仓库)中含有大量的图形图像数据,一些图
像分析和模式识别方法可直接用于挖掘数据和发现
知识,或作为其他挖掘方法的预处理方法[20]。
用于
图像分析和模式识别的方法主要有:
决策树(decision
tree)方法、人工神经网络(artificialneuralnetwork)
方法、数学形态学方法、图论方法等。
(8)可视化方法。
空间数据可视化技术拓宽了
传统的图表功能,使用户对数据的剖析更为清楚。
例如,把数据库中的多维数据变成多种图形,对揭示
数据的状况、内在本质及规律性有很强的作用。
当
显示空间数据挖掘结果时,将地图同时显示作为背
景,一方面能够显示其知识特征的分布规律,另一方
面也可对挖掘结果进行可视化解释,从而达到最佳
的分析效果。
可视化技术使用户能够看到数据处理
的全过程,监测并控制数据分析过程。
在实际应用中,常常要综合运用上述方法。
另
外,数据挖掘方法要与常规的数据库技术充分结合。
数据挖掘利用的技术越多,结果的精确性越高。
4 空间数据挖掘与GIS集成
由于空间数据挖掘由空间数据库系统(主要是
指GIS数据库)、数据挖掘系统和人机接口3部分组
成,而从当前存在的系统状态看,空间数据库部分也
是GIS系统的组成部分,所以空间数据挖掘的集成
就是GIS系统、数据挖掘系统以及人机接口系统的
集成。
其中GIS系统与空间数据挖掘系统的集成是
整个系统集成的核心。
关于数据挖掘和GIS的集
成,一般有3种模式[21-23]:
1)集成的空间数据挖掘
系统开发模式。
该模式自主开发GIS空间数据管理
功能,将各种数据挖掘模块和数据管理模块集成为
一个统一的系统。
2)利用现有的GIS系统,实现空
间数据挖掘系统与GIS系统的耦合集成,包括松散
耦合和紧密耦合。
松散耦合指GIS系统与空间数据
挖掘系统完全分开,通过文件系统或关系数据库系
统来交换信息,GIS系统完成部分数据预处理功能
和空间数据的管理及挖掘结果的显示等。
紧密耦合
是指GIS系统与空间数据挖掘系统部分集成。
紧密
耦合有两种形式:
通过GIS系统提供的脚本语言或
OLE(对象链接或嵌入)来实现应用程序,如Geomin-
er;或通过组件技术利用GIS的空间数据库管理和
数据显示功能,以实现GIS与数据挖掘的无缝链接
集成,这也是当前开发GIS应用系统的主流方向。
3)基于通用数据库系统的数据挖掘与基于GIS系统
的空间数据管理功能的集成开发模式。
空间数据管理和空间分析功能主要由GIS组件
或OLE技术实现,通用数据库只负责存储空间数
据,GIS系统通过专用接口与通用数据库链接。
5 空间数据挖掘的发展方向
在空间数据挖掘的理论和方法方面,重要的研
究方向有:
背景知识概念树的自动生成,不确定性状
态下的数据挖掘,递增式数据挖掘,栅格矢量一体化
数据挖掘,多分辨率及多层次数据挖掘,并行数据挖
掘,新算法和高效率算法的研究,空间数据挖掘查询
语言,规则的可视化表达等[2,3]。
在SDM系统的实
现方面,要研究多算法的集成,SDM系统中人机交
互技术和可视化技术,SDM系统与GIS、遥感解译专
家系统、空间决策支持系统的集成等。
数据挖掘的
研究和开发急需解决的问题主要体现在[11,12]:
(1)效率和可伸缩性。
海量数据库存有成百上
千属性表和百万条记录。
GB数量级的数据库不少
见,TB级的数据库已经出现,这必然导致海量数据
库中问题的维数很大,不仅增大了挖掘算法的搜索
空间,也增加了盲目搜索的可能性[15]。
因此,必须利
用领域知识除去与挖掘任务无关的数据,有效地降低
问题的维数,设计出更加有效的知识发现算法。
(2)交互性。
目前许多知识发现系统和工具缺
乏和用户的交互性,在知识发现过程中,难以充分有
效地利用领域知识。
对此,可以利用贝叶斯方法确
定数据可能性和分布,从而利用先验知识。
此外,可
利用演绎数据库的演绎能力发现知识,并用于指导
知识挖掘过程。
(3)挖掘模式的精练。
当数据挖掘搜索空间很
大时,就会获得许多挖掘结果。
其中有些是偶然、盲
目的,这时可利用领域知识进一步精练所发现的模
式,从中提取有用的知识。
(4)互联网上的知识发现。
Web逐渐普及,在这
个信息的海洋中可以发现大量知识。
已有一些资源
挖掘工具可用于挖掘含有关键字的文本,但挖掘知
识的研究刚刚开始。
目前的问题是如何从复杂的数
据(如包含文本、图像、视频的多媒体数据)中提取有
用的信息、对多层次数据库的维护以及如何处理数
页9第第4期 王海起等:
空间数据挖掘技术研究进展
关的数据。
3)检查数据的完整性及一致性,过
滤其中的噪声数据,插补缺失数据。
4)根据用户的
要求,确定空间数据挖掘的目标知识类型。
5)选择
合适的数据挖掘、知识发现算法,包括选取合适的模
型和参数,并使数据挖掘、知识发现算法和整个空间
数据挖掘的评判标准相一致。
6)运用选定的数据挖
掘、知识发现算法,从数据库中提取用户需要的知
识,这些知识可以用特定的方式表示,如特征表、谓
词逻辑、产生式规则、语义网络、面向对象或可视化
等。
7)根据某种有效性度量,对数据挖掘、知识发现
的模式进行解释和评价。
3 空间数据挖掘方法
空间数据挖掘的方法很多,根据发现对象可分
为关系数据库、面向对象数据库、空间数据库、时态
数据库、文本数据库、多媒体数据库、异质数据库、互
联网Web等;根据发现方法可分为机器学习方法
(归纳学习、决策树、规则归纳、基于范例学习、遗传
算法)、统计方法(回归分析、判别分析、聚类分析、探
索性分析)、神经网络方法(BP算法、自组织神经网
络)、数据库方法;根据发现任务可分为分类、聚类、
关联规则发现、时间序列预测、演化规则发掘等。
本
文综述常用的空间数据挖掘方法[2,3,11-18]。
(1)统计分析方法(statisticalanalysismethod)是
最常用的空间数据分析方法,目前已经有很多优秀
的算法和优化技术,是空间分析方法的基础。
其主
要缺点是假定空间数据之间互不相关,实际上很多
空间数据是高度相关的,所以使用这个方法效果很
差。
运用回归模型虽然可以在某种程度上降低问题
的难度,却使整个建模过程变得非常复杂,同时它不
能为非线性规则和符号值建立模型,也不能很好地
适用于不完整或者不确定性数据,所产生的巨大计
算量通常会影响其实时处理的性能。
(2)归纳/泛化学习方法(induction/generalization
learningmethod)。
归纳学习方法是从大量的经验数据
中归纳抽取一般的规则和模式,其大部分算法来源于
机器学习领域,其中最著名的是Quinlan提出的C5.0
决策树算法。
基于泛化的数据挖掘方法需要一定的
背景知识,而且这些背景知识需要上升到概念层次。
对空间对象而言,有空间和非空间两种概念层次。
面
向空间数据的泛化方法是从下到上归纳合并挖掘的
空间区域,直到区域的数值到达一个门限值为止。
在
进行面向空间的归纳处理后,再使用面向属性的归纳
技术得到非空间的属性数据。
面向非空间数据的泛
化是对所收集的非空间属性的数据进行面向属性的
归纳,将它们概括到一个更高的概念层次。
泛化的门
限值用来决定是继续泛化还是停止。
(3)空间聚类方法(methodsusingclustering)与
归纳/泛化方法不同,它无需背景知识,能直接从空
间数据库中发现有意义的空间聚类结构。
目前已经
提出了4种空间聚类方法:
基于分割的方法、基于层
次的方法、基于密度的方法和基于栅格的方法。
基
于分割的方法包括K-平均法、K-中心点法和EM
聚类法。
它们都是采用一种迭代的重定位技术,尝试
通过对象在划分间移动来改进聚类效果。
基于层次
的方法固定数据对象的关系,只是对对象集合进行分
解。
根据层次的分解方式,这类方法可分为凝聚和分
裂两种。
Birch、Cure和Chameleon方法是上述方法的
改进。
基于密度的方法主要思想是:
对给定类中的每
个数据点,在一个给定范围的区域中必须包含超过某
个阈值的数据点,才能够继续聚类。
它可以用来发现
任意形状的簇,过滤噪声。
代表性的方法有DBscan、
Optics和Denclue。
基于栅格的方法把对象空间划分
为有限数据的单元,形成一个网格结构。
其特点是处
理速度快,处理时间独立于数据对象的数目。
该类方
法包括Sting、Sting+、WaveCluster和Clique。
(4)空间分类方法(methodsusingclassification)。
空间分类主要有两种途径:
监督分类和非监督分类。
针对RS和GIS的空间数据挖掘,监督分类通过野外
调查找出分类样本,然后进行分类;非监督分类一般
先进行分类,然后进行野外考察验证。
分类和聚类
算法的不同在于:
聚类算法根据一定要求将对象聚
为一个集合,最后得到的分布模式是聚类之前未确
知的;分类算法根据已知分布模式的属性要求,将数
据库对象归入相应的类中。
(5)探测性数据分析(ExploratoryDataAnalysis,
EDA)采用动态统计图形和动态链接窗口技术将数
据及统计特征显示出来,可发现数据中非直观的数
据特征及异常数据。
EDA与空间分析相结合,构成
探测性空间数据分析(ExploratorySpatialDataAnal-
ysis,ESDA)[19]。
EDA和ESDA技术在数据挖掘、知
识发现中用于选取感兴趣的数据子集,即数据聚焦,
并可初步发现隐含在数据中的某些特征和规律。
(6)空间趋势分析(spatialtrendanalysis)。
空间
趋势指离开一个给定的起始空间对象时,非空间属
性的变化情况。
例如,当离城市中心越来越远时经
济形势的变化趋势。
其分析结果可能是正向趋势、
反向趋势,或者没有趋势。
一般在空间数据结构和
页8第地理与地理信息科学 第21卷
空间数据库中可挖掘的知识类型
GIS数据库是空间数据库的主要类型,从中可
以挖掘的基本知识类型有普遍的几何知识、空间分
布规律、空间关联规则、空间聚类规则、空间特征规
则、空间区分规则、空间演变规则、面向对象的知识
等。
它们可用特征表、谓词逻辑、产生式规则、语义
网络、面向对象方法和可视化等方法表达[7-12],应
根据不同的应用选取不同的表达形式,并且各种表
达形式间可以相互转换。
(1)普遍的几何知识(generalgeometricknowl-
edge)指某类空间对象的数量、大小、形态特征等普遍
的几何特征,可以计算几何特征量的最小值、最大值、
均值、方差、众数等,还可得到特征量的直方图。
在此
基础上根据背景知识归纳出泛化的普遍几何知识。
(2)空间分布规律(spatialdistributionregulari-
ties)指对象在地理空间的分布规律,可分为垂直向、
水平向以及垂直向和水平向的联合分布规律。
垂直
向分布指地物沿高程带的分布,如植被沿高程带分
布规律、植被沿坡度坡向分布规律等;水平向分布指
地物在平面区域的分布规律,如不同区域农作物的
差异、公用设施的城乡差异等;垂直向和水平向的联
合分布即不同的区域中地物沿高程分布规律。
(3)空间关联规则(spatialassociationrules)指空
间对象间相邻、相连、共生、包含等关联规则,如村落
与道路相连,道路与河流的交叉处是桥梁等。
(4)空间特征规则(spatialcharacteristicrules)指
某类或几类空间对象的几何和属性的普遍特征,即
对共性的描述。
普遍的几何知识属于空间特征规则
的一类,由于它在遥感影像解译中具有重要作用,所
以分离出来单独作为一类知识。
(5)空间区分规则(spatialdiscriminaterules)指
两类或多类对象间几何或属性的不同特征,即可以
区分不同类型对象的特征。
(6)空间分类/回归规则(spatialclassification
rules/spatialregressionrules):
空间分类规则根据空
间区分规则把数据集的数据映射到某个给定的类
上,用于数据预测,其预测值是离散的;空间回归规
则也是一种分类器,其预测值是连续的。
二者常表
现为一棵决策树,根据数值从树根开始搜索,沿着数
据满足的分支往上,到树叶就能确定类别。
空间分
类或回归的规则是普及知识,实质是对给定对象数
据集的抽象和概括,可用宏元组表示。
(7)空间聚类/函数依赖规则(spatialclustering
rules/spatialfunctionaldependencyrules):
空间聚类
把特征相近的空间实体数据划分到不同的组中,组
间的差别尽可能大,组内的差别尽可能小,可用于空
间对象的概括和综合。
与分类规则不同,聚类前并
不知道将要划分几个组和什么样的组,也不知道根
据哪些空间区分规则来定义组。
空间函数依赖规则
旨在发现空间对象属性间的函数关系,挖掘知识用
以属性名为变量的数学方程来表示。
(8)空间序列规则(spatialserialrules)基于时序,
根据空间对象随时间变化的趋势预测将来的值。
为
了发现序列规则,不仅需要知道空间事件是否发生,
而且需要确定事件发生的时间。
(9)空间演变规则(spatialevolutionrules)指空间
对象依时间的变化规则,即哪些对象易变及怎么变,
哪些对象固定不变。
如果GIS数据库是时空数据库
或者GIS数据库中存有同一地区多个时间数据的快
照(snapshot),则可以发现空间演变规则。
(10)面向对象的知识(objectorientedknowl-
edge)指某些复杂空间对象的子类构成及其普遍特
征的知识。
2 空间数据挖掘体系结构及一般过程
2.1 空间数据挖掘的体系结构
数据挖掘有各种各样的体系结构,如Han提出
的通用数据挖掘原型、Holsheimer等的并行体系结
构、Matheus等的多组件体系结构。
所有这些体系结
构都可以扩展用于空间数据挖掘。
相比之下,
Matheus等提出的体系结构更通用一些[7,11]。
在
Matheus体系结构中,用户可以控制挖掘过程中的每
个步骤,在知识库中存储背景知识,如空间和非空间
概念层或有关元数据,或有关数据库的信息。
挖掘
处理过程主要由DB接口、聚焦、模式提取、评估4个
组件完成。
利用DB接口组件从数据源取出数据,该
接口允许查询优化,利用空间数据索引结构(如R树)
等方法进行高效处理;聚焦组件进行对象和属性抽
取,决定哪些数据对模式识别是有用的;模式提取组
件发现规则和模式,该组件使用统计学、机器学习和
数据挖掘等技术发现规则和关系;评估组件评价所发
现模式的有效性和重要性,以去除冗余知识。
4个组
件通过控制器进行交互,挖掘的结果最终传给用户。
2.2 空间数据挖掘的一般过程
从空间数据库中挖掘数据、发现知识是一个多
步骤相互链接、反复进行的交互过程:
1)了解空间数
据挖掘相关领域的情况,熟悉有关背景知识,掌握用
户需求。
2)从空间数据库中提取与空间数据挖掘过
页7第第4期 王海起等:
空间数据挖掘技术研究进展
收稿日期:
2005-03-07; 修订日期:
2005-05-14
基金项目:
国家“863”计划项目(2002AA135230-1);国家自然科学基金项目(40471111)
作者简介:
王海起(1972-),男,讲师,博士研究生,研究方向为GIS与空间信息分析。
E-mail:
wanghq@
空间数据挖掘技术研究进展
王海起1,2,3,王劲峰1
(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;
2.中国石油大学(华东)地球资源与信息学院,山东东营257061;3.中国科学院研究生院,北京100039)
摘要:
空间数据具有海量、非线性、多尺度、高维和模糊性等复杂性特点,空间数据挖掘技术是对空间数据中非显性
的知识、空间关系等模式的自动提取。
该文从空间数据挖掘的知识类型、方法、体系结构、过程以及与GIS系统集
成等方面对其进行综述。
重点阐述空间特征及区分规则、空间分类及聚类规则、空间分布及关联规则、空间序列及
演化规则等知识类型以及统计分析、机器学习、探索性数据分析、可视化分析等数据挖掘方法。
通过对空间数据挖
掘理论、应用和系统实现等方面研究方向、存在问题的分析,指出集数据库、知识库、专家系统、决策支持系统、可视
化工具、网络等技术于一体的空间数据挖掘系统是其主要发展方向。
关键词:
空间数据;知识类型;数据挖掘;体系结构;GIS
中图分类号:
P208 文献标识码:
A 文章编号:
1672-0504(2005)04-0006-05
空间数据库含有空间数据和非空间数据,空间
数据主要是地表在GIS中的二维投影,非空间数据
则是除空间数据以外的一切数据[1]。
随着对地观
测、获取设备的迅速发展,空间数据资源日益丰富。
然而,数据资源中蕴含的知识远远没有得到充分的
挖掘和利用,导致“数据爆炸但知识贫乏”[2];同时,
要求用户详细分析这些数据并提取感兴趣的知识或
特征是不现实的。
因此,从空间数据库中自动地挖
掘知识,寻找数据库中不明确的、隐含的知识、空间
关系或其它模式,即空间数据挖掘技术(SpatialData
Mining,SDM)越来越重要。
空间数据挖掘是在空间数据库的基础上,综合利用
统计学方法、模式识别技术、人工智能方法、神经网络技
术、模糊数学、机器学习、专家系统和相关信息技术等,
按照一定的度量值和临界值抽取空间知识及与之相关
的预处理、空间抽样和数据变换的一个多步骤相互链
接、反复进行的人机交互过程。
可以归纳为数据准备
(了解应用领域的先验知识、生成目标数据集、数据清
理、数据简化与投影)、数据挖掘和知识发现(数据挖掘
功能和算法的选取,在空间的关联、特征、分类、回归、聚
类、函数依赖等特定的规则中搜索感兴趣的知识)以及
数据挖掘后处理(知识的解释、评价和应用)3部分[2-4]。
1 空间数据的特点及可挖掘的知识类型
1.1 空间数据的特点
空间对象具有空间位置和距离属性,并且距离
邻近的对象之间存在一定的相互作用,因此空间数
据之间的关系类型更为复杂(不仅多了拓扑关系、方
位关系,而且度量关系还与空间位置和对象间的距
离有关),与其他类型的数据之间存在明显的差异。
空间数据具有如下复杂性特点[5-7]:
1)海量的
数据。
海量数据常使一些算法因难度或计算量过大
而无法实施,因而空间数据挖掘的任务之一就是要
创建新的计算策略并发展新的高效算法,克服海量
数据造成的技术困难。
2)空间属性之间的非线性关
系。
它是空间系统复杂性的重要标志,反映了系统
内部作用的复杂机制,是空间数据挖掘的主要任务
之一。
3)空间数据的尺度特征。
空间数据在不同观
察层次遵循的规律以及体现出的特征不尽相同。
尺
度特征是空间数据复杂性的又一表现形式,利用该
性质可以探究空间信息在泛化和细化过程中所反映
出的特征渐变规律。
4)空间维数的增高。
空间对象
的属性增加极为迅速,如在遥感领域,由于感知器技
术的飞速发展,波段的数目由几个增加到几十甚至
上百个,如何从几十甚至几百维空间中挖掘数据、发
现知识成为研究中的又一热点。
5)空间信息的模糊
性。
模糊性几乎存在于各种类型的空间信息中,如
空间位置的模糊性、空间相关性的模糊性以及模糊
的属性值等。
6)空间数据的缺失。
数据缺失现象是
由于某种不可抗拒的外力使数据无法获取或发生丢
失。
如何对丢失数据进行恢复并估计数据的固有分
布参数,成为解决数据复杂性的难点之一。
据的异质性和自主性等。
(5)和其它系统的集成。
一个方法、功能单一的
挖掘系统的适用范围必然受到限制,并且开发的知
识系统仅局限于数据库领域。
要在更广阔的领域挖
掘数据、发现知识,数据挖掘系统应该是数据库、知
识库、专家系统、决策支持系统、可视化工具、网络等
多项技术集成的系统。
参考文献:
[1] 陈述彭,鲁学军,周成虎.地理信息系统导论[M].北京:
科学出
版社,2000.3-10.
[2] 李德仁,王树良,史文中,等.论空间数据挖掘和知识发现[J].
武汉大学学报(信息科学版),2001,26(6):
491-499.
[3] 李德仁,王树良,李德毅,等.论空间数据挖掘和知识发现的理论
与方法[J].武汉大学学报(信息科学版),2002,27(3):
221-233.
[4] HANJ,KAMBERM.DataMining:
ConceptsandTechniques[M].
SanFrancisco:
AcademicPress,2001.145-176.
[5] 裴韬,周成虎,骆剑承,等.空间数据知识发现研究进展评述
[J].中国图象图形学报,2001,6A(9):
854-860.
[6] 罗志清,李琦.城市空间数据基础设施研究[J].地理与地理信
息科学,2003,19(3):
32-34.
[7] MILLERHJ,HANJ.Geographicdataminingandknowledgedis-
covery:
Anoverview[A].MILLERHJ,HANJ.GeographicData
MiningandKnowledgeDiscovery[C].London:
TaylorandFran-
cis,2001.3-32.
[8] 周海燕,王家耀,吴升.空间数据挖掘技术及其应用[J].测绘通
报,2002,2:
11-13.
[9] 余达太,蓝荣钦,张世涛,等.空间数据挖掘的方法和实施[J].
测绘学院学报,2003,20
(2):
132-134.
[10] 李新运,郑新奇,闫弘文.坐标与属性一体化的空间聚类方法
研究[J].地理与地理信息科学,2004,20
(2):
38-40.
[11] ESTERM,FROMMELTA,KRIEGELHP,etal.Spatialdata
mining:
databaseprimitives,algorithmsandefficientDBMSsup-
port[J].DataMiningandKnowledgeDiscovery,2000,4(2-3):
193-216.
[12] GAHEGANM,WACHOWICZM,HARROWERM,etal.The
integrationofgeo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据 挖掘 技术研究 进展 王海起
![提示](https://static.bingdoc.com/images/bang_tan.gif)