1、,标准结构化描述模型,河北省标准化研究院 施建,介绍提纲,问题由来?,对标准内容需求划分,对标准内容需求划分,快速定位到读者可以辨析的文献上,检索的结果集不能帮助读者辨析是否是自己所需的文献,则该检索或数据加工存在问题,什么是检索,部分内容需求一定要碎片化?,全文搜索引擎是否可以解决碎片化需求,全文搜索,可以搜索到与字符串匹配的文献。但,全文内容在关系数据库中往往是存储在一个备注字段。检索结果默认的指向是这个备注字段。当检索一个日期字段时,会命中很多记录。但匹配该字段的时间是什么语义?如发布日期?实施日期?作废日期?结果集不能说清楚,只能是自己甄别。当对碎片化的需求,不仅仅是检索,有排序、统计
2、需要时,全文搜索就无能为力。,默认是对特定的字段检索,检索具有明确的执向性,默认的检索指向全文内容字段。检索的指向性差,结果就会有歧义,碎片化的数据存储在关系数据库或非关系数据库,检索直接指向特定的字段或列项,检索指向语义明确,通过语义结构构建的数据模型展示数据项的内在联系,拓展检索线索,关系数据库检索特点,全文检索的特点,碎片化、结构化,知识图谱,标准结构化包含2部分内容:全文结构化、技术要求(技术指标)结构化,标准结构化模型描述,标准是什么?,无论是产品、方法、安全、卫生、环保等类型的标准,其技术要求无外乎回答2个问题:what、howWhat(什么):要求是什么How(怎么做):要求怎么
3、做,标准是一种技术要求,标准是什么?,全文结构化(形式结构化),按照标准内容的层次结构及内容要素描述标准全文结构化。这种按其形式特征描述的结构化模型,也成为形式结构化模型全文结构化按标准的章节最小单位进行存储,全文结构化库分为:全文库、图片库、表格库、术语库、公式库。,对标准的技术要求,定性、定量指标进行分析,抽象出一般共性要素,指标结构化(语义结构化),选择不同类型标准,归纳、总结技术要求的数据项,对抽象描述的模型,进行数据标引、抽取验证,IDEF0是以结构化分析和设计技术为基础所发展出来的一种系统菜单达的工具。,IDEF0业务描述,是美国空军在70年代末80年代初ICAM(Integrat
4、ed Computer Aided Manufacturing)工程在结构化分析和设计方法基础上发展的一套系统分析和设计方法。是比较经典的系统分析理论与方法。,输入,输出,控制,机制,基于UML对指标结构化模型描述,对E-R进行抽象化,按UML思想构建描述模型,用E-R图描述标准文献实体关系,标准关系(影响因素),对象自然/社会属性,对象,对象技术特征属性(技术指标),模型应用,标准结构化模型应用,.,标准结构化元数据,描述结构化标准的数据,标准结构化数据抽取,用于对标准的内容结构化数据的存储,结构化标准编写,基于标准结构化元数据进行结构化标准编写,例1-标准结构化编写,应用标准结构化元数据,
5、构建结构化标准的数据结构。构建全文库、图表公式、术语数据结构;构建指标库数据结构;将标准编写涉及的标准碎片化,应用于标准编写,作为:提示、校验规则、示例等。,例1-标准结构化编写,假设:所有企业标准按结构化标准进行编写。推导:企业标准指标排名、企业标准指标对比都会自动完成。假设的前提是指标系列名称已经进行了对齐(规范化),例2-企业标准编写评价,将标准编写涉及标准碎片化,归纳总结分成若干类别的编写要求。据要求,形成评价项目、权重;根据评价项目、权重、计算方法、评价过程形成“企业标准编写质量评价指南”标准。,全文库应用、术语库应用、图表公式库应用、指标库库应用,未来展望,作为分词的语料库,防止术语编写的歧义性,提高术语的统一、协调性,输入法、校对中以词为单进行输入、校对。提高输入速度、校对精准度,文本挖掘-分词,输入法、校对语料库,标准编写-语料,案例-术语库应用,主要应在文本挖掘、知识检索,指标库应用,全文结构化后的章节条内容包含语义,具体语义是什么?难以体现,不易被检索到;指标库的实现方式上是基于模版的应用,当模版增多,选择模版成为问题;数据提起速度成为问题;指标库构建完成后,名称对齐(统一)成为问题。,仍存在的问题,解决章节条语义问题,解决指标抽取方式问题,解决名称对齐统一问题,谢谢聆听,施建 0311-83081183 247514QQ.COM,