基于库数据逆向工程方法课案.docx
- 文档编号:6322887
- 上传时间:2023-05-09
- 格式:DOCX
- 页数:12
- 大小:447.25KB
基于库数据逆向工程方法课案.docx
《基于库数据逆向工程方法课案.docx》由会员分享,可在线阅读,更多相关《基于库数据逆向工程方法课案.docx(12页珍藏版)》请在冰点文库上搜索。
基于库数据逆向工程方法课案
基于库数据逆向工程方法
CarloBatiniDepartmentofInformatics,SystemsandCommunication(DISCo)Universit`adegliStudidiMilano-Bicocca-Italybatini@disco.unimib.it
GianluigiViscusiDepartmentofInformatics,SystemsandCommunication(DISCo)Universit`adegliStudidiMilano-Bicocca-Italyviscusi@disco.unimib.it
DanieleBaroneDepartmentofInformatics,SystemsandCommunication(DISCo)Universit`adegliStudidiMilano-Bicocca-Italydaniele.barone@disco.unimib.it
文摘
在本文中,我们描述了一个反向的经验数据工程支持的存储库的概念模式。
我们首先引入一组集成/抽象为了使用原语组织一个大的存储库的概念模式。
我们描述构思的方法生产的存储库在意大利的中央公共管理模式。
然后,我们描述一个启发式方法,应用于生产的设置模式的公共行政意大利地区。
我们也比较前的确切方法和启发式的根据他们的正确性,完整性、和效率。
1介绍
数据逆向工程(DRE)解决的问题信息存储和如何将这些信息用在不同的上下文(19日12)。
越来越感兴趣在反向工程社区与DRE增加相关性对于企业和组织,面临的关键问题的管理大量的数据,如相关的扩散数据仓库和数据挖掘技术战略决策支持系统(11、12)。
衣服是一个关键的任务也解决(我)业务连续性与灾难恢复问题(如合并和采购策略,允许保护战略数据),
(2)从各种遗留系统数据仓库、数据集成(3)遗留数据结构的映射在一个共同的业务对象模型[19],如在合作信息系统和面向服务的体系结构。
在这种情况下连续变化需要的信息系统符合新的技术标准,新的商业模式需要获得竞争优势,和新形成的机构水平。
的使用存储库的信息系统模式是战略资源,允许监视可用的知识在组织内,支持DRE活动在前面的引用出现。
本文描述了角色概念模式存储库的数据反向工程实际经验的基础上进行的当地的意大利公共管理。
本文是有组织的如下。
的环境中描述的经验第二节,第三节讨论的基本原语用于模式组织概念模式存储库。
第四节概述了年使用的方法建筑的中央存储库。
在第5部分中,我们描述了用于生产当地的启发式方法PA库。
讨论相关工作(7节)(8节)和未来的研究总结了纸。
2研究内容
图1所示。
新技术架构政府对公民和业务交互
公共管理(PA)的结构组成许多国家,中央和地方机构公民和企业提供服务。
例如,在意大利,中央不是有两种类型,内部等部门事务、收入和其他中央机构。
如社会保险、意外保险、室商务部。
主要类型的地方不是对应区域(21)、省(约100)、直辖市(约8.000)。
每一个政府管理自己的数据库和注册表。
在改变一个至关重要的方面不是和公民之间的关系在于设计一个新的技术架构(见图1,三个机构被认为是),与过去相反,报价公民的服务通过一个共同的前面办公室层,一站式购物模式的基础上,此外,一层合作后台开发,允许政府和共享信息应用程序服务,为了重新设计管理程序,降低了用户的负担。
有关数据架构,裁员应该被发现和控制、数据交换的可互操作的格式,所有的政府都将是一样的意义相同的数据,实现集成的术语。
能够发现冗余和异构性问题数据库中不同的政府,
(2)协调数据的不同的含义,重用实体新数据库的设计实现语义互操作性,一个统一的概念的描述是必要的不同的数据库。
这个目标已经实现存储库的概念模式(存储库在下面)现有的数据库。
主要的存储库意大利中部PA(中央PA存储库的数据库后)在1995-1997年生产使用方法[6]和概念模式集成方法库构建[2]。
2004年,一个地区,即皮埃蒙特地区,决定建立自己的存储库(本地PA库),涉及的主要数据库管理在其领土。
逻辑关系模式过程的输入,有限的人力资源是可用的。
因此,一个启发式方法已经产生,允许当地的生产吗库[3],[4]。
在本文中,我们描述了这些活动。
3存储库的结构
在下面,我们5库作为一组概念模式,每个描述的所有信息由一个组织管理领域内的信息系统考虑。
特别是,库引用本文使用实体关系模型来表示概念模式。
图2。
元模式存储库
然而,一组平面的模式不显示概念之间的关系管理在不同的领域;库必须是有组织的在一个更复杂的结构,通过结构的使用原语。
在我们的方法使用的原语先是在[2],介绍:
抽象、视图和集成。
抽象允许的描述相同的现实在不同的层次,从具体到抽象的。
我们将调用优化逆原始,允许继续吗更详细的抽象表示。
这种机制是基本的存储库,因为它帮助用户感知复杂现实一步一步,从一个更抽象的水平到本地。
的观点是片段的模式,允许用户将他们的注意力只是感兴趣的一个复杂的现实他们。
集成是一套当地的机制之后,模式是合并成一个独特的全球模式解决异构性问题出现在所有输入模式。
通过联合使用这些构建原语我们获取存储库的模式。
在接下来我们名字的基本模式底部的概念模式定义的水平库、抽象模式的模式上的水平。
在实践中,当存储库的填充底部标高由数以百计的模式,如的情况我们将检查在下面,这是不可行的这三个结构基元,查看原始是牺牲了。
此外,集成和抽象应用在一起,导致应用程序的一个新的由原始,集成/抽象原始。
集成/抽象是迭代,产生模式在若干个不同的抽象层次上。
图2中显示的资源库,元属性显示在框代表的实体。
中部代表的组织模式,连同他们的分类及其关系领域与组织单位(管理、所有者和外部PA)。
右手代表对象中定义的一部分模式,连同他们的类型。
左边的部分表示对象之间的冲突定义模式参与集成/抽象原语。
图3。
生产的方法中央存储库
图4。
顶级的模式存储库
4设计库
在前面描述的存储库的组织部分被用来提供一个结构宽的概念模式有关意大利中部PA最相关的数据库。
在底部的中央PA库,大约500概念模式定义,对应数据库的逻辑模式。
为了构建整个存储库中描述的过程图3已经被采用,更详细地定义在[2]。
的方法是由三个步骤。
在步骤1中,开始从逻辑关系模式或需求收集活动,传统的模式设计的方法已使用(见例如[13]),导致生产的大约500个基本模式,大约5.000实体和同样数量的关系。
在步骤2中概念模式代表了不同组织区域分组的同质类,对应的有意义的行政区域的中央的兴趣PA,如社会保障、金融、文化遗产,和教育。
在步骤3中每组的基本模式第一个集成和抽象,导致一种独特的模式对于每个区域,填充的二级库,导致32个二级抽象模式。
例如,内部安全二级模式集成/抽象过程,结果执行6模式对应于130年的概念。
集成/抽象过程是迭代,产生更高等水平模式,对应于更抽象的领域财务资源、人力资源、社会服务,经济服务,最终产生一个独特的综合模式,这是进一步的抽象,在最顶层库的模式如图4所示。
管理模式是最重要的概念在任何公共管理的信息系统,即主题、个人、法人、财产,地方,和文档,他们的高水平的关系。
由此产生的金字塔模式提供自然的代表在不同的抽象概念水平,与合适的近似,找到了共同之处异构数据库之间的部分属于不同机构。
为了生产库,大约200person-months在步骤1中需要生产500基本概念模式,而需要24person-months生产在步骤3中59抽象模式上存储库(大约14个工日的一部分模式,对基本的和抽象的模式)。
图5。
生产PiedimontPA库通过重用的中央存储库
5数据逆向工程与存储库
在本节中,我们描述采用的方法在当地的生产PA库中。
在这种情况下更少的资源可用。
第一个相关的输入,可用的中央PA(CPA)存储库模式(见图5),做的基本模式和抽象的。
注册会计师最频繁的查找表属性,提取从CPA存储库的基本模式是另一个来源的过程。
第二个区域的输入问题可用文档数据库。
逻辑模式:
500数据库记录的关系数据库模式、表、描述表的引用完整性约束定义在表、属性定义属性的标识符。
的基本来源知识用于当地生产PA(LPA)存储库,从上述讨论结果,非常富有,但特点是一个重要的异构性:
概念性文档担忧中央PA,逻辑文档属于当地的私人助理。
我们的活动的相关条件已经预算限制。
因此,在产生的方法生产当地的巴勒斯坦权力机构库,我们做了一个意义重大假设,我们使用启发式和近似推理,以减少人工干预越好。
我们做出的假设是,宾夕法尼亚州中部的基本模式库和地方PA库可能可能不同,由于不同中央和地方政府之间的函数,之间的相似性应该更高抽象中央PA模式库和基础+抽象当地PA模式库。
在的结果以上假设和资源的限制,我们决定使用一个更密集比的概念结构中央PA的模式库。
它由泛化层次结构的顶部水平的六个模式中定义的概念图4中,和下级更精炼的概念抽象的模式和基本模式,获得应用的改进沿着集成/抽象的层次结构。
我们将展示在图6个人的层次结构。
图6。
个人泛化层次结构
我们现在提供的原理方法,细节参见[3],[4]。
遵循不同的方法方法构建的基本模式和抽象模式库,和,因此,可以看到分为两个阶段。
对于每一个当地的逻辑模式,可用的概念/中央和逻辑/本地知识在阶段1产生一个基本使用当地的概念模式。
然后,在第二阶段,抽象的模式构建。
图7。
第一阶段的启发式的步骤方法
就是关注阶段1的5个步骤,不久描述在图7中。
在下面,我们共同讨论每一个步骤文档框架,描述步骤和输入这个过程。
步骤1。
提取实体和属性
•输入:
CPA泛化层次结构的概念,一个LPA的逻辑模式
•过程:
实体名称层次结构和查找表的属性的名称注册会计师库最频繁的属性与名称和描述的每个表的名称和描述属性的逻辑模式。
比较函数使用的距离在不同的文本字符串函数,考虑表名(tn)的数量,数量表描述(td)的数量属性名称(一个),ofattribute描述广告数量,各有一个距离低于固定阈值函数。
一个点在一个四维空间与每个概念相关联提取,定义为:
P(concept)=
一个概念(囚禁)或被选中作为潜在的实体属性(型)如果四项之和大于第二阈值。
为了判断是一个概念实体或属性,我们在四个计算距离维平面之间P(概念)和两个点:
Pent=
Patt=<0,0,an,ad>
根据越接近和分配的实体或属性点。
我们必须决定最后的每个属性AiEj是相应的实体。
执行此步骤将人工智能分配给实体越近,假设距离对应的表名、表描述,提取的属性名称、属性描述。
的实体和相应的频率匹配排序和阈值是固定的:
所有的实体频率阈值选择,导致第一次模式仅仅是实体的草案。
输出是一个草案模式由断开连接的实体和相关属性。
步骤2。
添加概括
•输入:
在前面获得的模式草案和四步CPA泛化层次结构。
•过程:
访问泛化层次结构并添加模式草案子集在层次结构的关系,定义草案中的实体模式之一。
步骤3。
提取的关系注册会计师的基本模式库
•输入:
草案模式和所有的基本CPA库模式。
•过程:
实体模式草案一对明智与所有的基本模式在注册会计师存储库中。
每一对的E1和E2几种类型的实体关系是提取的基本模式:
(a)关系定义完全E1和E2;(b)的关系对应关系链的定义在对E1-Ei;Ei-Ei+1;…Ei+je2;(c)的关系定义在实体对应于E1和E2*四个E1和E2的泛化层次结构。
在得了步骤排序根据收集的关系名字的频率。
这里有两种可能性:
最常见的名字是选择的名称关系;
(2)由领域专家指定的名称。
步骤4。
提取的关系引用完整性约束定义在逻辑表
•输入:
草稿模式+约束定义表的逻辑模式
•过程:
为每一个引用完整性约束两个表T1和T2中定义逻辑模式,它是检查是否T1和/或T2已经选为实体在模式草案,以防补充道随着新实体。
此外,它是检查是否定义之间的关系实体,并在必要时添加。
第5步。
领域专家检查
•输入:
模式草案
•过程:
模式产生的半检查的自动化过程域专家可能添加新概念,取消现有的概念,否则修改一些概念。
图8。
第一阶段的启发式的步骤方法
自执行第5步后的关系和实体完整性约束的结果,它可能发生添加了太多的概念,和手册领域专家的检查会导致删除概念。
有时添加新概念,导致一个丰富模式的内核是初始模式。
更多的模式常常是获得完整性约束后检查和领域专家检查一致。
我们在图8中显示模式得到的结果执行步骤1到5的模式工业业务活动监视(我们不显示的属性)。
在这种情况下,模式后获得的完整性约束检查和领域专家后检查一致。
关于第二阶段(参见[3]中的细节)我们最初观察到步骤1-3(草案后获得的模式模式在以下)继承了高度抽象的知识从中央存储库和基础知识从本地PA逻辑模式,而丰富专门的基本模式获得第4步中封装知识从本地PA逻辑模式。
图9。
在存储库中可能有的位置汇票和富集模式
所以,我们可以猜想模式草案是一个候选人对抽象的模式存储库的上层,而丰富的模式,是一个更详细的描述的逻辑模式,填充(见的基本水平图9)。
我们已经把草案的抽象层次模式。
通过建设,所有的实体模式草案属于中央PA泛化层次结构。
所以,我们可能把一个抽象层次模式草案,直观地说,捕捉其实体的相对位置关于五个层次。
一个抽象级别也每个模式关联在中央存储库,类似的定义。
相应地,我们可以联系平均抽象层次,每一层在中央PA库。
草案模式在当地的水平存储库是一些设置为最接近的抽象层次层的中央存储库。
我们把实体的通风模式的基础上他们的亲密关系选择不同区域集群模式在中央PA库。
通过迭代的应用程序模式草案的两个步骤上面所讨论的,我们最后获得完整的当地PA库。
图10。
生产之间的比较中央PA库的过程当地的巴勒斯坦权力机构库
6方法之间的比较采用中央存储库和当地的巴勒斯坦权力机构库
图10总结了主要结果的比较活动。
为了比较这两种方法使用生产的中央存储库和本地PA库,我们执行几个测量三个病例不同的品质:
1。
概念模式的正确性与尊重“真”,即模式可以获得通过传统的直接由领域专家分析或者逆向工程活动。
正确性是本地存储库的情况下测量用一个近似的间接指标,即比例的新增/删除概念模式专家最后的步骤5对生产的半自动的步骤1-4的概念。
2。
概念模式的完整性的尊重相应的逻辑模式。
完整性是衡量表的百分比在步骤1-5,相比表的数量,排除表没有携带相关的信息,例如冗余表、表码等。
3。
流程的效率,资源生产模式的需要。
关于正确性,中央的联合应用PA知识和当地PA知识导致令人鼓舞结果,考虑到高度启发式的性质的方法。
结果是更多的完整性问题。
初始值的启发式的完整性方法是50%左右。
就像预期的,完整性参考时显著降低完整性约束不记录或部分记录。
除了文档的质量,另一个地方导致减少的完整性的静态特性泛化层次结构中使用步骤1,丰富相关的代表顶级概念。
我们已经改善了这个步骤通过增量更新的层次结构与抽象概念生成阶段2。
这样的丰富层次结构逐步更加接近地方政府的层次特征,从而在一个更有效的选择机制。
最后,增加看起来很效率的启发式方法令人印象深刻的,导致成本和良好的平衡质量。
7相关工作
在所有信息系统集成是一个关键问题几个层次的合作必须建立在哪里不同组织或球员。
作为一个例子,[27]讨论了机构整合的必要性通过集成基础设施,提高他们的竞争力他们的系统与供应商或其他贸易伙伴。
在[22]逆向工程的解决方案和方法遗留数据库使用正式基于方法的提出了技术。
在[10]标准和技术支持建立语义词典数据库提出了互操作性。
相似性的标准是用来评估概念亲密,因此,生成概念层次结构。
技术允许在联邦数据库的概念模式的分析和概念层次结构的定义和维护。
概念模式集成方法已经发展在过去,看到[7]全面比较。
一项调查的方法模式匹配模式集成的一个关键问题[23]。
介绍了原语模式集成[6],模式集成方法实体关系模型。
集成和抽象介绍了原语[2],几个存储库的属性采用这样的原语已经正式建模和研究。
启发式方法和高效的生产服务的工具概念模式提出了[3]和[5]。
在[17]一个描述性的模型和基于词和概念集成的基本类型的面向对象模式生成抽象概念作为一个整合的结果提出了过程。
存储库的关系模式[18]中描述在一个GLAV数据集成系统。
在[25]介绍了包作为一个概念模式在ER模型抽象机制。
几种有效技术提出了集团实体和关系在主导地位等包分组、积累和抽象吸收。
在[15]和[14]介绍了一种基于语料库的方法,语料库是一个收集的任何信息相关的结构化数据,如模式和映射对之间的一些模式。
在语料库areloosely相关模式,属于一个域,但需要没有被映射到对方。
存储库的概念模式提出了几个应用领域,例如生物科学[26],重用模式设计[24],[28]。
一个数据存储库中使用[20]的核心结构mediator-like模块支持用户友好的集成对可用数据资源的访问。
核心系统提取和剥削知识(inter-schema属性)的形式相对的涉及到数据库模式。
[4]和[3]的方法提出了重用库的概念大型电子政务项目的模式。
8未来的工作
在本文中,我们描述了一种体验的数据逆向工程支持的存储库的概念模式。
概念库提供了一个丰富模型超越极限的一个平面的实体关系模式。
未来在这一领域的研究工作旨在利用这样的模型,为进一步支持数据相反工程合作架构,一个至关重要的问题对电子政务项目的有效性(见如。
[9]和[8])。
对于这些问题,我们专注于表达中内涵的知识存储库通过语言的特征,更丰富的语义支持推理活动,例如猫头鹰[16],[21]或其扩展owldl等[1]。
参考文献
[1]G.AntoniouandF.vanHarmelen.Webontologylanguage:
Owl.InHandbookonOntologies,pages67–92.Springer,2004.
[2]C.Batini,G.D.Battista,andG.Santucci.Structuringprimitivesforadictionaryofentityrelationshipdataschemas.IEEETrans.SoftwareEng.,19(4):
344–365,1993.
[3]C.Batini,M.F.Garasi,andR.Grosso.Reuseofarepositoryofconceptualschemasinalargescaleproject.InAdvancedTopicsinDatabaseResearch.IdeaBook,2005.
[4]C.Batini,R.Grosso,andG.Longobardi.Designofrepositoriesofconceptualschemasforlargescalee-governmentprojects.JournalofElectronicGovernment-tobepublishedmarch2006.
[5]C.Batini,R.Grosso,andG.Longobardi.Designofrepositoriesofconceptualschemasinthesmallandinthelarge.InProceedingsoftheeGovernmentWorkshop’05(eGOV05).HostedatBrunelUniversity,September13,2005,WestLondonUB83PH,UK,2005.
[6]C.BatiniandM.Lenzerini.AmethodologyfordataschemaintegrationintheEntityRelationshipmodel.IEEETransactiononSoftwareEngineering,1984.
[7]C.Batini,M.Lenzerini,andS.Navathe.ComparisonofMethodologiesforDatabaseSchemaIntegration.ACMComputingSurveys,18(4),1986.
[8]I.Benetti,D.Beneventano,S.Bergamaschi,F.Guerra,andM.Vincini.Aninformationintegrationframeworkforecommerce.IEEEIntelligentSystems,17
(1):
18–25,2002.
[9]D.BeneventanoandS.Bergamaschi.TheMOMISmethodologyforintegratingheterogeneousdatasources.InIFIPCongressTopicalSessions,pages19–24.Kluwer,2004.
[10]S.CastanoandV.DeAntonellis.Semanticdictionaryfordatabaseinteroperability.In13thInternationalConferenceonDataEngineering,UniversityofBirmingham,Birmingham,UK,1997.
[11]E.J.Chikofsky.Thenecessityofdatareverseengineering.forewordforpeteraiken’sdatareverseengineering,1996.
[12]K.H.Davis.Lessonslearnedindatareverseengineering.InWCRE,pages323–327,2001.
[13]R.ElmasriandS.Navathe.Foundamentalsofdatabasesystems,FifthEdition.Addison-WesleyPublishingCompany,1994.
[14]A.Y.HalevyandJ.Madhavan.Corpus-basedknowledgerepresentation.InInProc.InternationalJointConferenceonArtificialIntelligence(IJCAI03),volume18,pages1567–1572.MorganKaufmann,USA,2003.
[15]J.Madhavan,P.A.Bernstein,A.Doan,andA.Y.Halevy.Corpus-basedschemamatching.InICDE,pages57–68.IEEEComputerSociety,2005.
[16]D.McGuinnessandF.vanHarmelen.Owlwebontologylanguageoverview.http:
//www.w3.org/TR/2003/WD-owlfeatu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 逆向 工程 方法