Web网页知识获取技术.docx
- 文档编号:7407005
- 上传时间:2023-05-11
- 格式:DOCX
- 页数:7
- 大小:45.52KB
Web网页知识获取技术.docx
《Web网页知识获取技术.docx》由会员分享,可在线阅读,更多相关《Web网页知识获取技术.docx(7页珍藏版)》请在冰点文库上搜索。
Web网页知识获取技术
第26卷第12期2006年12月北京理工大学学报
TransactionsofBeijingInstituteofTechnologyVol.26No.12Dec.2006
文章编号:
10010645(200612106504
Web网页知识获取技术
胡思康,曹元大
(北京理工大学计算机科学技术学院,北京100081
摘要:
描述一种基于类自然语言理解的Web文本知识自动获取技术.用领域文法描述Web网页文本,将该领域文法转换成描述句子信息的、符合正则表达式规范的规则,使用该规则把Web网页文本转换为表示网页知识的语义三元组,最后形成领域知识库.试验数据表明,通过本技术生成的领域知识库中不同类型网页数据的召回率平均值是715%,准确率平均值是791%.
关键词:
类自然语言理解;Web网页文法;语义三元组中图分类号:
TP182文献标识码:
A
TechnologyofWebPageKnowledgeAcquisition
HUSikang,CAOYuanda
(SchoolofComputerScienceandTechnology,BeijingInstituteofTechnology,Beijing100081,China
Abstract:
TechnologyofautomaticWebtextknowledgeacquisitionisdescribed,basedonpseudonaturallanguageunderstanding.Webpagetextsarerepresentedfirstbydomaingrammars.Thedomaingrammarsaretransformedintorulesthatareusedtodescribethesentenceinformationandareuptoregularexpressionregulations.ThentheWebpagetextsaretransformedintosemantictriples
thatrepresentWebknowledgebythoserules.Thesemantictriplesthenformthedomainknowledgebase.TestdatashowedthattheaveragerecallrateandprecisionrateofdifferentkindsofWebpagedataindomainknowledgebaseis715%and791%separately,ashavebeenformedbytheabovetechnology.
Keywords:
pseudonaturelanguageunderstanding;Webpagegrammar;semantictriple收稿日期:
20060615
作者简介:
胡思康(1975,男,在职博士生,讲师,Email:
skhu@263.net.
在网页文本信息自动获取研究发展过程中,逐步形成了两种主要的研究方法:
建立在计算语言学和概率统计基础之上的统计计算方法和基于自然语言理解技术的领域知识文本理解方法.
统计计算方法是统计关键词在文本中出现的频率,并以出现频率的高低作为知识获取的基础,包含高频率关键词的短语、句子或段落,作为进一步信息获取的备选内容.其中,关键词的确定及统计,分为根据关键词词典中定义的、有监督的词频统计和文
本中无监督的词频统计.Golds等根据统计学和语言学特征的权重组合选定文本中的语句[1],并通过给获取的信息排序进行文本信息的获取;Salton等
用文本自然段落特征向量的矢量积和设定的阈值,提取文本中的段落形成文本信息[2];晋耀红等提出了一种形式化模型语境框架来获取文本信息
[3]
;刘挺等提出了篇章多级依存结构的文本分析
方法[4]
;王继成等提出了以篇章结构为指导的文本信息自动获取方法[5].
基于文本理解与统计分析方法的不同之处,在于对文本进行语法结构分析的同时,利用领域数据(知识库进行判断、分析和推理文本的语义,得出深层语义描述.姜贤塔等提出一种改进的带一定语义信息的字频统计自动获取方法[6];陆科进等提出用Ontology建造信息获取的知识模型[7-9].作者基于类自然语言理解技术研究Web网页的知识获取.
1网页文本知识自动获取模型
11类自然语言理解的基本思想
统计计算方法中忽略了文本中重要的语义信息,而对文本完全的自然语言理解问题目前还没有
解决.因此,在20世纪80年代,中科院数学所的陆汝钤和曹存根提出了一种被称为类自然语言理解(pseudonaturallanguageunderstanding,PNLU的方法,它是一种不求甚解!
的自然语言理解方法.所谓的不求甚解!
是指在对文本的自然语言分析过程中,理解的重点在于关键字以及由这些关键字组成的句法结构在整体上的含义.
PNLU中的关键词定义不同于统计分析方法中关键词词频统计和文本获取系统中关键词定义的方式,类自然语言理解中的关键词的特征是有组织、有结构的关键词.
12网页文本知识自动获取的网页文法
在归纳类自然语言理解实践经验的基础上,定义一个文法框架,称为类自然语言文法模型,简称PNLG.
一个PNLG模型是一个五元组(N,K,S,R,P.其中,N为非终结符集合;K为关键词和标点符号的集合;S为PNLG的初始符号且S∀N;R为PNLG的语句模板集合,即N#T;P为一组产生式/规则的集合,且只有一个规则子组的产生式左侧是S.
13PNLU的知识表示
基于PNLU的形式语义主要由语义三元组网络表示,它主要分为语用三元组和语义三元组两个部分.
∃语用三元组(主三元组.该三元组由一个main:
(A,B,C:
L1,L2!
引导,其中:
节点A表示语用类型节点;节点B是言语行为节点;节点C表示节点A的某个属性节点;标号L1,L2等表示与之相关的语义三元组网络.
标号引导的三元组,如L1:
(D,E,F.其中:
节点
D表示该三元组和主三元组的语义关系节点;节点
E表示节点C的子属性;节点F表示节点E对应的获取知识.
2网页文本知识获取算法描述
21知识获取的基本过程
基于PNLU的领域Web网页知识获取过程主要包括文法检测、网页预处理、规则和三元组的自动生成、网页知识获取和股市报告生成5个部分组成,其工作流程图如图1所示.
图1Web网页知识获取过程
Fig.1ProcessofknowledgeacquisitionofaWebpage
文法检测包括对文法正确性、递归定义、产生式定义等项的检测.网页预处理主要完成去除网页中HTML标记和网页中干扰知识获取的噪音.规则由文法自动生成,并以正则表达式的形式存放于规则库中.由于正则表达式描述的是句子的结构,语义描述能力有限,因此,每条规则都会自动生成与之对应的语义三元组.
22用正则表达式表示的规则
知识获取系统中的规则是一个五元组(S,,F,S0,Z.其中:
S为状态有限集合,规则中的每个关键词都是一个状态;为所有合法字符,包括ASCII码和汉字字符;F为状态转换函数,表示从S&∋S的关键词转换;S0为五元组的唯一初始状态,S0∀S;Z为五元组的终止状态(接受状态,ZS.
23领域网页文法模型到规则的生成算法
231算法描述
算法所用符号的定义:
∃N为非终结符集合,Ni为集合N中的某个元素,1(i(|N|,|N|表示集合N的元素个数;%S为起始节点;
T为终结符集合;
1066北京理工大学学报第26卷
PNLG转换为规则的算法过程如下:
初始化非终结符集N和转换后的规则集R,N=+/,R=+/;
T={所有终结符节点};
S=语用产生式的第一个节点;while(S,+/
{
Right=产生式S的右部;N=N+取Right的子节点;if(N,+/
S=非终结符集N的第一个元素;else
R=R+N;}
算法结束.
232算法的计算复杂度
在PNLG规则右部的平均长度为L,文法树的平均深度为D,则231的算法复杂度为O(DL.由于PNLG规则右部的定义可以使用[]!
表示可选非终结符,且定义其为取n的整数部分,那么规则中[]!
包含的非终结符长度为L/2−,则
规则中[]!
包含非终结符生成的子组数为L/2−!
/2.
因此,文法树深度远小于规则右部的平均长度L,可视D为常数k,则231中所述算法平均复杂度为O(kL.
24规则到三元组的自动转换算法241算法描述
在描述规则到语义的三元组网络转换算法中提及的关键概念集K、子概念集C和概念属性集A都在概念文法中定义.
下面给出规则到PNLU语义三元组转换过程算法:
for(i=1;i(|R|;i++{
规则Ri的第一个关键概念K1构成形式为main:
(语用类型,言语行为,K:
标号列表;!
的主三元组;
for(j=1;j(|K|;j++{
取关键概念Ki中的子概念,并按照其在规则中的顺序放入子概念集C中;
|+{
A=Cj的概念属性集;
生成形式为标号:
(C,*,*;!
的子概念子三元组;
for(m=1;m(|A|;m++
{
取A中的概念属性元素Ak;
生成形式为标号:
(A,*,*;!
的概念属性子三元组;
}
把Cj和A的概念属性子三元组组合为语义三元组;
}
}
将主三元组、语义三元组按照标号顺序组成完整的语义三元组;}
算法结束.
242算法的计算复杂度
231中算法生成的规则有|R|条,通过概念文法的定义可以得出,每个规则包含的关键概念有|K|个,子概念有|C|个,每个子概念的属性有|A|个,则241中所述算法平均复杂度是O(|R|&|K|&|C|&|A|.
从上式可以看出,若要减少算法复杂度,需要精简生成的规则数,而规则是由概念、子概念和概念属性构成的,因此归根到底,还是需要从精简定义上述内容的概念文法入手.可见,要获取更多的网页知识,需要定义粒度更小的概念及其属性,但这样会增加算法复杂度;若定义粗粒度的概念,则网页知识的获取又太过粗糙.
3实验结果
由于用试验获取基本网页的股市财经网站的类型很多,因而只采用网站中的以下类别:
大盘综述!
、今日盘点!
、实时解盘!
、股市直播!
、大盘分析!
和股市动态!
中的共计1063个不同原始网页作为测试数据,它们的类别及其分布数量见表1.同时,采用准确率和召回率来评价PNLU的思想,具体定义如下:
准确率=
PNLU获取的所有知识
1067
第12期胡思康等:
Web网页知识获取技术
表1财经类股市网页分布
Tab.1DistributionofWebpageonfinanceandeconomicsstockmarket
网页类别网页数网页类别网页数大盘综述分析492股市直播133今日盘点解盘111股市动态327
实验中分别应用了前述算法,各类别网页的准确率和召回率如表2所示.
表2财经类股市网页准确率和召回率
Tab.2PrecisionrateandrecallrateofWebpageonfinanceandeconomystockmarket
网页类别准确率/
%
召回率/
%
网页类别
准确率/
%
召回率/%
大盘综述分析808778股市直播333143今日盘点解盘833714股市动态732653
从表2中可以看出,股市直播的准确率和召回率比较低,是因为股市直播时的实时数据巨大,且其中很多数据仅仅是股市波动过程中的数据信息,而设计者所关心的,是对大盘分析时PNLG获取的综合数据,并据此得出股市中的网页信息.
4结论
叙述了所提出的基于类自然语言理解的思想以及基于此思想分析和设计的财经类股市网页知识获取系统设计,并实现了财经类股市网页文法结构及其到规则与语义三元组的转换.类自然语言理解是不求甚解!
的方法,在完全自然语言理解技术还不成熟的今天,利用它通过对相关领域关键词和句子的分析,可形成对网页语义的部分理解.
参考文献:
[1]GoldsteinJ,KantrowitzM,MittalV,etal.Summarizingtextdocument:
sentenceselectionandevaluationmetrics[C].ProceedingsofSIGIR.[S.l.]:
ACMPress,1999:
121-128.
[2]SaltonG,SinghalA,MitraM,etal.Automatictextstructuringandsummarization[J].InformationProcessing&Management,1997,33(2:
193-207.
[3]晋耀红,苗传江.一个基于语境框架的文本特征提取算
法[J].计算机研究与发展,2004,41(4:
582-586.JinYaohong,MiaoChuanjiang.Analgorithmofextractingtextcharacterbasedonamodelofcontextframework[J].JournalofComputerResearch&Development,2004,41(4:
582-586.(inChinese
[4]刘挺,王开铸.基于篇章多级依存结构的自动文摘研究[J].计算机研究与发展,1999,36(4:
479-488.
LiuTing,WangKaizhu.Researchonautomaticabstractingbasedontextmultileveldependencystructure[J].JournalofComputerResearch&Development,1999,36(4:
479-488.(inChinese
[5]王继成,武港山,周源远,等.一种篇章结构指导的中文Web文档自动摘要方法[J].计算机研究与发展,2003,40(3:
398-405.
WangJicheng,WuGangshan,ZhouYuanyuan,etal.ResearchonautomaticsummarizationofWebdocumentguidedbydiscourse[J].JournalofComputerResearch&Development,2003,40(3:
398-405.(inChinese[6]姜贤塔,陈根才.利用字频统计及机器学习的自动文摘方法[J].杭州大学学报:
自然科学版,1997,24(3:
220-225.
JiangXianta,ChenGencai.AutomaticChineseabstractsbasedonthestatisticsofChinesecharacterfrequencyandmachinelearning[J].JournalofHangzhouUniversity:
NaturalScienceed,1997,24(3:
220-225.(inChinese[7]陆科进,李新颖.基于Ontology的文本信息抽取[J].计算机应用研究,2003(3:
46-48.
LuKejin,LiXinying.Webinformationextractionbasedonontology[J].ApplicationResearchofComputer,2003(3:
46-48.(inChinese
[8]廖乐健,曹元大,李新颖.基于Ontology的信息抽取[J].计算机工程与应用,2002,38(2:
110-113.LiaoLejian,CaoYuanda,LiXinying.Ontologybasedinformationextraction[J].ComputerEngineering&ComputerApplications,2002,38(2:
110-113.(inChinese
[9]王昕,熊光楞.基于本体的设计原理信息提取[J].计算机辅助设计与图形学学报,2002,14(5:
429-432.WangXin,XiongGuangleng.Ontologybaseddesignrationaleinformationretrieval[J].JournalofComputerAidedDesign&ComputerGraphics,2002,14(5:
429-432.(inChinese
(责任编辑:
李玉丹
1068北京理工大学学报第26卷
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Web 网页 知识 获取 技术