空间数据库整理部分资料.docx
- 文档编号:13033028
- 上传时间:2023-06-10
- 格式:DOCX
- 页数:16
- 大小:421.59KB
空间数据库整理部分资料.docx
《空间数据库整理部分资料.docx》由会员分享,可在线阅读,更多相关《空间数据库整理部分资料.docx(16页珍藏版)》请在冰点文库上搜索。
空间数据库整理部分资料
空间数据库与关系数据库间的主要区别:
1)和关系数据库相比,空间数据库没有固定的运算符集合
2)空间数据库处理对象复杂,具有空间范围,不能自然按一维排序
检测空间谓词需要用到大量复杂计算,所以CPU的代价不是主要由I/O决定
5、空间查询处理的“过滤——精炼模式”是什么?
其目的?
目的:
用两步走算法高效的处理复杂的数据模型
过滤:
寻找Q最终结果的超集S;
精炼:
利用GIS处理S来找到精确的Q的答案
●E-R图空间模型,除了属性信息,通过象形图扩展…
6、象形图:
象形图是一种将对象插在方框内的微缩图表示,这些微缩图用来扩展ER图,并插到实体矩形框中的适当位置
6.1、对于空间数据,ER模型方法的不足之处?
为表达空间概念,扩展ER模型主要增加了哪些要素?
--实体象形图、关系象形图,读懂扩展ER模型的表示符号。
(书上P51)
答:
1)、ER模型的最初设计隐含了基于对象模型的假设。
因此,场模型无法用ER模型进行自然的映射
2)、在传统的ER模型中,实体之间的联系由所要开发的应用来导出,而在空间建模中,空间对象之间总会有内在的联系
3)、建模空间对象所使用联系类型和“地图”的比例尺有关
6.2、举例说明用象形符号扩展ER图,对于空间数据建模有何好处?
用象形符号扩展ER图,以便专门处理空间数据类型。
这将减少ER图以及所产生的关系模式的复杂度,同时改进空间建模的质量。
空间联系(例如Road-Crosses-River)就可以从ER图中省略,用隐式的方式表示。
关系模式中的表达多值空间属性的关系和M:
N空间联系也就不需要了
●空间索引的基本思想
7、空间索引:
是指根据空间对象的位置和形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构,其中包含空间对象的概要信息,如对象的标识、外接矩形及指向空间对象实体的指针;空间索引技术包括R树索引、四叉树索引、网格索引等
空间索引文件:
是用来提高空间数据查询效率的辅助文件。
索引文件的记录只有两个域,即码域和空间数据的页面地址
主索引,如果数据文件的记录是按照主码排列的,那么索引就只需要保存数据文件的每个磁盘页面第一个主码域值。
每个索引记录一个数据页面。
二级索引:
堆数据文件,一个索引记录一个数据。
一个磁盘最多只有一个主索引,因为主索引决定了数据在磁盘上的存储顺序
空间索引方法:
1)在系统中加入专门的外部空间数据结构,为空间属性提供如同B树之于线性属性的功能。
2)使用空间填充曲线(如Z序、Hilbert曲线)将空间对象映射到一维空间,以便空间对象存储在标准的一维索引(例如B树)中。
13、空间查询:
利用空间索引机制,从数据库中找出符合该条件的空间数据。
包括几何查询、属性查询和时态查询等
点查询:
数据未排列且没有索引:
穷举法,扫描整个文件并判断每条记录是否满足谓语建立空间索引:
在索引中使用find操作;需要查找的磁盘扇区等于索引的深度空间填充曲线散列:
运用折半法寻找点;检验大约logB(n),的磁盘扇区
区域查询:
数据未排列且没有索引:
穷举法,扫描整个文件并判断每条记录是否满足谓语建立空间索引:
在索引中使用范围查询操作空间填充曲线散列:
验证Z值满足范围查询要求;使用折半查询找到最低的Z值;扫描前面的数据文件直至满足查询要求的最大的Z值
空间连接:
嵌套循环,检验所有可能的空间谓语对;基于空间分块,只检验普通空间区域的对象对树匹配:
从每张表中找出分层的的对象组
1、查询语言与查询树之间的互换?
语法分析器执行
2、对查询树进行逻辑转换的目的和一般方法是什么?
答:
方法:
将非空间的选择和投影操作下推
目的:
减少连接操作所涉及的关系大小,从而减少计算代价。
空间聚集:
(最近领域)即给定一个对象O’,找出所有距离O’最近的对象O。
空间聚集通常是“最近邻居”搜索的变体
●R树
12、R树:
R树是一种利用B树的某些本质特征来处理多维数据的数据结构,是B树在多维上的自然扩展,也是平衡树。
R树中用对象的最小外包矩形(MBR)来表示对象;
R树中每个非叶子结点都由若干个(p,MBR)数据对组成。
MBR为包含其对应孩子的最小边界矩形,p是指向其对应孩子结点的指针。
叶子结点则是由若干个(OI,MBR)组成,OI是空间对象的标号
R树的其它特点
1.1除根结点外,每个结点包含m~M条索引记录(其中m﹤﹦M/2;
1.2除根结点外,每个中间结点至多M个子结点,至少有m个子结点;
1.3若根结点不是叶结点,则至少包含2个子结点;
1.4所有叶结点出现在同一层;
1.5所有MBR的边与一个全局坐标系的坐标轴平行;
R+树:
R+树索引的主要特征是在R+树中兄弟节点对应的空间区域没有重叠,这样划分空间可以使空间搜索的效率提高。
●11、平面扫描(planesweep)技术主要解决什么问题?
其主要步骤?
答:
主要解决的是如何在过滤阶段中尽可能多的淘汰不符合条件的对,从而减少几何计算的计算代价。
Step1:
从左至右移动一条扫描线(例如,垂直于x轴的线),停在R∪S的第一个元素处。
这就是具有最小T.xl值的矩形T,例子为是矩形R4。
Step2:
搜索S中已排序的矩形,直到抵达第一个矩形Sf,这里有Sf.xl>T.xu。
显然,对于所有1≤j 注意f是以图1-9c的数组索引为序,即S1=S2、S2=S1、S3=S3。 这样S2就是一个可能与R4交叠的候选矩形。 Step3: 如果对任意l≤j≤f,关系[T.yl,T.yu]∩[Sj.yl,Sj.yu]存在,则Sj与T相交。 因此,这一步就确定了R4与S2的确是交叠的,并且 记录所有这样的信息,然后将矩形T(R4)从集合R∪S中去掉,它不再需要参与结果集中的其他相交对。 Step4: 继续移动扫描线来穿过集合R∪S,直至碰到下一个矩形,在本例中是S2。 这时进行步骤2和3。 Step5: 当R∪S=∅时,处理结束; 4、磁盘存储相关概念: 磁道track、扇区sector、柱面cylinder? 页面的概念? 答: 磁道: 圆心磁盘片上向边缘延伸的同心圆 扇区: 每个磁道中被分成若干等份的区域 柱面: 是磁盘上具有相同镭的磁道的集合 页面: 又称磁盘块。 是磁盘与主存之间的最小传输单位 5、访问磁盘扇区数据的过程,哪个过程花费的时间最多? •Seek(寻道): Moveheadassemblytorelevanttrack(ts) •磁头到达特定磁道所用的时间 •Latency(延迟时间): Waitforspindletorotaterelevantsectorunderdiskhead(tl)块旋转到磁头下方所用的时间 •Transfer传输时间: Readorwritethesector(tt)置于正确位置后读写块中数据的实际时间 •1>2>3 聚类: 聚类的目的就是降低响应常见的大查询的寻道时间(ts)和等待时间(t1)。 对于空间数据库来说,这意味着在二级存储中,空间上相邻的和查询上有关联性的对象在物理上应当存储在一起。 1、数据库: 就是为了一定的目的,在计算机系统中以特定的结构组织、存储、管理和应用的相关联的数据集合,是数据管理的高级阶段。 空间数据库是存取、管理空间信息的数据库,指的是地理信息系统在计算机物理存储介质上存储的应用相关的地理空间数据的总和,一般是以一系列特定结构的文件的形式组织在存储介质之上的 空间数据库与关系数据库间的主要区别: 3)和关系数据库相比,空间数据库没有固定的运算符集合 4)空间数据库处理对象复杂,具有空间范围,不能自然按一维排序 5)检测空间谓词需要用到大量复杂计算,所以CPU的代价不是主要由I/O决定 空间数据模型: 是关于现实世界中空间实体及其相互联系的概念,它为描述空间数据的组织和设计空间数据库模式提供着基本方法 空间数据库管理系统: 1)一个SDBMS是一个软件模块,它利用一个底层数据库管理系统 2)SDBMS支持多种空间数据模型、相应的空间抽象数据类型(ADT)以及一种能够调用这些ADT的查询语言 3)SDBMS支持空间索引、高效的空间操作算法以及用于查询优化的特定领域规则 空间信息: 也就是指在某个空间框架(如地球表面)中的位置信息。 空间信息是指与研究对象的空间地理分布有关的信息,它表示地理系统诸多要素的数量、质量、分布特征,相互联系和变化规律的图、文、声、像等的总称 地理信息系统: 是用于采集、模拟、处理、检索、分析和表达地理空间数据的计算机信息系统,可以作为ADBMS的前端 数据模型: 数据模型是一条或一组用于标识和表示空间参照对象的规则,数据模型是数据集的特定结构和模式,是对数据的文件描述,有利于某些性质的前期分析。 数据模型是数据库系统中关于数据内容和数据之间联系的逻辑组织的形式表示。 每一个具体的数据库都是由一个相应的数据模型来定义。 层次模型、网络模型、关系模型、面向对象模型 对象模型: 对象模型很适合表示有固定形状的空间实体 场模型: 用于表示连续的或无固定形状的概念 2、数据库的发展: (图) 数据库系统的前身为文件系统,数据库技术最初产生于20世纪60年代中期,根据数据模型的发展,可以划分为三个阶段: 第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的关系数据库系统 3、场操作可以分为三类: 局部操作、聚焦操作、区域操作 局部操作: 空间框架内一点给定位置的新场的取值只依赖于同一位置场的输入值 聚焦操作: 在指定位置的结果场的值依赖于同一位置的一个假定小领域输入场的值 区域操作: 与聚集运算符或微积分中的积分运算有关,如森林的例子中计算每个树种的平均高度 4、数据库设计的三个步骤: 首先,采用高层次的概念数据模型来组织所有与应用相关的可用信息: 重点关注应用的数据类型及其联系和约束,设计过程的这个阶段不考虑具体实现细节。 概念模型通常用浅显的文字,结合简单一致的图形符号来表示。 实体-联系模型是所有概念设计工具中最为流行的一种;然后,逻辑建模阶段,与概念数据模型在商用DBMS上的具体实现有关;最后,数据库设计的第三步骤是物理设计的建模,它解决了数据库应用在计算机中具体实现时方方面面的细节 5、概念模型: 是对真实世界中问题域内的事物的描述,不是对软件设计的描述。 E-R模型表示 逻辑模型: 是指数据的逻辑结构。 关系模型表示 物理模型: 1)概念数据模型在计算机内部具体的存储形式和操作机制,用一个有效容错的方式2)执行逻辑数据模型的理论基础,使用现在的构件 邻接表、邻接矩阵表示 基于内存的物理模型: 邻接表、邻接矩阵 基于外存的物理模型: 规范化表结构: 用两个关系R和S来分别描述结点和边 非规范化表结构: 采用非规范化表结构可以加快边的查询速度 6、象形图: 象形图是一种将对象插在方框内的微缩图表示,这些微缩图用来扩展ER图,并插到实体矩形框中的适当位置 7、空间索引: 是指根据空间对象的位置和形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构,其中包含空间对象的概要信息,如对象的标识、外接矩形及指向空间对象实体的指针 空间索引文件: 是用来提高空间数据查询效率的辅助文件。 索引文件的记录只有两个域,即码域和空间数据的页面地址 8.主存: 用于暂时存放CPU中的运算数据,以及与硬盘等外部存储器交换的数据 特点 作用 主存 读取数据快,但断电数据就会丢失 提高性能 二级存储 读取数据较慢,但断电数据不丢失 储存 三级存储 读取数据更慢,容量大 备份 硬盘驱动器存取时间(ta)ta=ts+tv+ttts为寻道时间,tv为延迟时间,tt为传输时间通常,ts>tv>tt 9、从软件的角度,数据在磁盘上以域、记录、文件这种层次结构的形式存放的。 文件: 文件是记录的集合,类似于整个关系表 记录: 每条记录都是相同或不同类型的域的集合。 表的“行”称为“记录”,对应于关系表的一行,即一个实体,是属性的集合 域: 域是一种管理边界,用于一组计算机共享共用的安全数据库,域实际上是一组服务器和工作站的集合。 是属性的取值范围,表示一个关系表或实体属性 文件结构: 一种组织文件中记录顺序的方法,以便于对文件的各种操作。 包括: 无序文件(堆)、散列文件、有序文件、聚类文件 10、空间填充曲线: 空间填充曲线是利用一个线性顺序来填充空间,可以获得丛一端到另一端的曲线。 多维空间本身没有自然排序关系,但存在一对一的连续映射,可以将多维空间的点映射到一维空间,以达到对多维空间进行一维排序的目的。 常用的算法有Z曲线和Hilberlt曲线 Z曲线: 1)读入x和y坐标的二进制表示2)隔行扫描二进制数字的比特到一个字符串 3)计算出结果二进制串的十进制值 Hilberlt曲线: 1)读入x和y坐标的n比特二进制表示。 2)隔行扫描二进制比特到一个字符串。 3)将字符串自左至右分成2比特长的串si,其中i=l,…,n。 4)规定每个2比特长的串的十进制值di,例如“00”等于0,“01”等于l;“10”等于3;“11”等于2。 5)对于数组中每个数字j,如果 ·j=0把后面数组中出现的所有l变成3,并把所有出现的3变成1。 ·j=3把后面数组中出现的所有0变成2,并把所有出现的2变成0。 6)将数组中每个值按步骤5转换成二进制表示(2比特长的串),自左至右连接 所有的串,并计算其十进制值。 Hilberlt曲线和Z曲线的比较: Hilberlt曲线的方法要比Z曲线好一些,因为它没有斜线; Hilberlt曲线算法和精确入口点及出口点的计算量都要比Z曲线复杂。 11、为什么用空间填充曲线? 1)空间数据所处的多维空间中没有天然的顺序,加强了多维空间中的位置顺序 2)允许在空间数据中使用传统的有效搜索 3)存储磁盘从逻辑上说是一维的设备,空间聚类技术就是要寻找一个从高维空间向一维空间的映射方法,空间上邻近的元素,映射为直线上接近的点,而且一一对应为达到这一目的,人们提出了很多种算法 12、R树: 是B树在K维上的自然扩展。 R树中用对象的最小外包矩形(MBR)来表示对象 R+树: 空间对象的MBR可能被树中非叶结点的矩形分割,中间结点的所有矩形都是不相交的 13、空间查询: 利用空间索引机制,从数据库中找出符合该条件的空间数据。 包括几何查询、属性查询和时态查询等 查询处理: 从查询语句出发,获得查询结果的处理过程 查询优化: DBMS对描述性语言表达的查询语句进行分析,为其确定合理、有效的执行策略和步骤的过程。 就是在不改变查询结果的前提下,对该查询树进行变换,以达到降低查询时间和空间复杂性的目的 查询优化器: 是一个用于产生不同的计算计划并确定适当的执行策略的数据库模块。 由于优化计算非常复杂,很难找到最优策略,一般优化的目的只是避免最差的策略。 查询优化器执行两部分任务: 逻辑转换和动态转换 查询处理和优化可以分为两个步骤: 1)为每个基本的关系运算符设计并调整算法 2)利用第一步的信息把高层查询映射为这些基本关系运算符的组合并进行优化 14、空间操作包括四个部分: 1)更新操作: 标准数据库操作,如修改、删除、添加等 2)选择操作: 1、点查询: 给定一个查询点P,找出所有包含它的空间对象 2、范围或区域查询: 给定一个查询多边形P,找出所有与之相交的空间对象O 3)空间连接: 当两个表R与S基于一个空间谓词Ð(如intersect相交、overlap交叠等)进行连接时,则该连接成为空间连接 4)空间聚集: (最近领域)即给定一个对象O’,找出所有距离O’最近的对象O。 空间聚集通常是“最近邻居”搜索的变体 15、分布式空间数据库DDMS系统的特点: 1)DDMS是一组物理上分布的数据库集合,这组数据库集合由数据库管理软件进行管理。 一个分布式数据库在逻辑上是一个统一的整体,在物理上则是分别存储在不同的物理节点上。 一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。 DDMS体系结构非常适用于SDB,因为空间数据是由不同组织采集的,而将数据库集中复制到一个站点也是非常困难的 2)在分布式数据库中,有一个特殊的连接操作称为半连接,这种操作在一些情况下可以极大减少数据传输的代价 3)DDMS是基于传统的空间数据库上做空间数据存取扩展,并且使其适应分布式系统的需要 4)利用元数据技术实现分布式数据库的构架 5)利用统一的空间数据模型,统一的空间数据标准来实现分布式空间数据的构架 6)许多理论上提出的分布式体系结构难以在实际中应用 16、空间查询处理的“过滤——精炼模式”是什么? 其目的? 目的: 用两步走算法高效的处理复杂的数据模型 过滤: 寻找Q最终结果的超集S;利用GIS处理S,来找到精确的Q的答案 17、传递闭包: 图G(V,E)的传递闭包G*是满足下列条件的图,它与G有相同的顶点集V,但它的边集则由G的所有路径组成 18、图遍历: 它是所有路径算法的基础,它沿着图的边,通过一个结点到另一个结点的遍历来搜索路径。 常用的图遍历有广度优先、深度优先、Dijkstra算法、层次策略算法等 广度优先搜索(BFS): 给定一个图G以及G中的一个源结点V,BFS算法访问所有从V可以到达的结点,算法首先访问源结点V的所有直接邻居,然后再递归的访问其直接邻居的邻居 深度优先算法(DFS): DFS算法是先沿着边走完一条“路径”,然后返回到顶层去走其他的“路径”。 即给定图G中的一个源V,该算法先访问源的一个直接邻居,然后在访问其他直接邻居前访问该直接邻居的后继 Best-first算法: 使用一个评估函数f(v,d)来低估结点v和d之间的最短路径的代价 层次寻径算法: 1)找出源或目的到他们边界结点的代价2)用穿过分片图的代价来决定哪些边界结点一定在路径上3)找到通过边界图的路径4)使用边界路径的信息找到最短路径。 即把原来的图分解成一系列分片图和一个汇总图(叫做边界图)。 通过适当构建边界图,就可以把一个对原图的最短路径查询分解为一系列对更小图的最短查询路径 19、SQL: SQL是一种声明性语言,即用户只需描述所要的结果即可,而不必描述获得结果的过程。 SQL语言至少由两部分组成: 数据定义语言,数据操作语言 20、关系代数: 关系代数(RA)是与关系模型相关联的形式化查询语言 2.用传统数据库系统管理空间数据不足之处: (1)传统数据库管理的是不连续的相关性较小的数字或字符,而空间数据是连续的,并且有很强的空间相关性; (2)传统数据库管理的实体类型较少,并且实体类型间关系简单固定,而GIS数据库的实体类型繁多,实体间存在着复杂的空间关系;(3)传统数据库存储的数据通常为等长记录的数据,而空间数据的目标坐标长度不定,具有变长记录,并且数据项可能很多,很复杂;(4)传统数据库只查询和操作数字和文字信息,而空间数据库需要大量的空间数据操作和查询。 3.空间数据特征: 空间特征、空间关系、非结构化、抽象特征、多时空性特征、分类编码特征、海量数据特征、多尺度与多态性。 4.空间数据组织方式: (1)数据分层式(DataLayer)图层定义: 将同区域的数据分成不同的类型或层级储存,例如依不同地类、专题、年代等,各储存类别称作“图层”;可按照: 专题、时间、高度等分层。 专题图定义: 传统纸质地图通常依不同的专题,如人口分布图、地质图、地形图等,来表现不同的人文活动或是地表现象,这些图称作专题图(ThematicMap);数据层: 目前大多GIS数字图则以数据项目分层,称作数据层(DataLayer),但也常被称作图层或专题图层。 层: 空间数据处理的一个工作单元,不同的系统工作处理层方式不同;逻辑层: 当一个层所包含的内容太多(如管线层),为了方便于显示、制图和查询,对其中的部分要素定义逻辑层,逻辑层不改变存储关系,仅建立对照表,每个逻辑层包含了哪些指向地物类的指针。 数据分层式优缺点: –这种方式是目前颇为普遍的数据组织方法,方便使用者选择合适的数据,适合与栅格或矢量数据数据结构,目前大多数GIS软件采用这一方法。 –其缺点是层与层之间的数据必须经过层叠置(Overlay)处理才能关联在一起,在叠置处理中,对栅格数据常需要大量存储空間来完成操作,而矢量数据则需大量的计算处理。 –同一图层内的图形数据的空间关系较为简单并易于处理,但不同图层之间的空间关系难以处理。 (2)空间分区式(DataTiling)定义: 将大规模区域的数据划分为若干规则或不规则的小区域(工作区)来存储。 传统地图也通常采用这一方法来分区记录,它的划分称作图幅(Mapsheet)。 为了不使数据量太大而影响数据读取的效率,也常以分区方式来存储GIS数据。 数据分区式-优缺点: –分区式与分层式可同时采用,并不冲突。 –分区式也是目前大部份商业软件所采用的方法,适合与栅格和矢量数据结构,在数据量大的系统中,分区方法可提高数据存取的效率。 –图幅或区块间的衔接问题是分区法最大的困扰,尤其在空间数据查询、分析操作时更是这样。 (3)实体式(EntityBased)以人所认知的实体(Entity)或对象(Object)为组织单元;GIS之精神所在;目前大多GIS都以点、线、面要素为单元,代表二维空间的实体,例如以点代表城市、学校或单位等;以线代表道路、河流、或电力线等;以面代表行政区域、湖泊或地籍宗地等。 实体方式优缺点: –该组织法符合人对现实世界空间现象的认知,同时便于与空间关系以及属性数据的联系,而形成所谓的实体关系(Entity-Relationship)数据组织模式,因此适合于空间数据的查询分析和空间关系的推导。 –可配合分区及分层的方式来建立效率高并符合GIS操作的数据组织方式。 –由于人对地物或现象的认知或推理会随数据或应用的目的而改变,因此并无固定或标准的程序来把数据以实体的方式组织。 (4)面向对象式(ObjectOriented) 5.属性数据组织方式: 虽然属性数据可由RDBMS管理,但不同GIS的实现策略不同: (1)ARC/INFO: 属性存储在coverage目录之下,在工作区目录下,通常有一个记录属性数据文件信息包括目录路径的文件,而且,一个Coverage仅有一个AAT或PAT表,还支持按每个地物类建立扩展属性表,通过PAT或AAT连接; (2)MGE: 一个地物类对应于一个属性表文件,而且所有属性文件都在工程目录下,不要求每个地物类都具有属性;(3)Geostar: 一个地物类有一个属性表,或多个地物类公用一个属性表。 一个属性文件包含了工程内所有同类空间对象的属性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据库 整理 部分 资料
![提示](https://static.bingdoc.com/images/bang_tan.gif)