网页正文提取系统的详细设计与实现毕业设计论文Word格式.docx
- 文档编号:5064237
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:23
- 大小:69.67KB
网页正文提取系统的详细设计与实现毕业设计论文Word格式.docx
《网页正文提取系统的详细设计与实现毕业设计论文Word格式.docx》由会员分享,可在线阅读,更多相关《网页正文提取系统的详细设计与实现毕业设计论文Word格式.docx(23页珍藏版)》请在冰点文库上搜索。
日期:
摘要
随着互联网信息技术的不断发展,互联网的信息量也日益膨胀。
近年来,全球因特网上的信息数据正以爆炸式的速度在增长。
据IDC报告称,从现在到2010年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB(1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍。
面对如此巨大的互联网信息库,如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。
这时,搜索引擎的出现无疑给人们带来了极大的方便。
然而,随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大,人们发现,即使是借助搜索引擎的帮助,他们也越来越难以有效和准确的找到自己所需要的信息资源。
本文在研究了现有的搜索引擎的解决方案后,通过采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。
该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。
该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。
关键词 中文信息处理;
垂直搜索;
信息抽取;
正文提取
1.绪论
本章主要从介绍垂直搜索引擎的与海量搜索的区别,国内外该方向的研究情况,课题来源意义以及论文所要研究的主要内容来描述课题内容。
1.1课题背景
1.1.1搜索引擎的历史
最早现代意义上的搜索引擎出现于1994年7月。
当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。
同年4月,斯坦福(Stanford)大学的两名博士生,DavidFilo和美籍华人杨致远(GerryYang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。
从此搜索引擎进入了高速发展时期。
目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。
比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。
像国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。
国内的XX也属于这一类(XX已于2001年9月开始提供公共搜索服务),搜狐和新浪网站使用的就是它的技术(搜狐二级网页搜索现已改为中搜的引擎,而新浪则已转用Google的搜索结果)。
因此从这个意义上说,它们是搜索引擎的搜索引擎[1]。
1.1.2搜索引擎的发展方向
互联网存在的价值就是低成本、高容量、多方的信息传递。
互联网每一个杀手级应用都离不开信息和传递这两个关键词。
邮箱是、即时通讯是、搜索引擎是、将来的杀手级应用还依然离不开信息和传递这两个关键词。
搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。
在可以预见的不久的将来,从产品角度看待网页搜索引擎的发展大致有如下几个方面[1]:
(1)确解用户之意,信息抽取,优化排序
(2)基于视觉网页块分析
(3)网页库内容分类
(4)潜在相关性
(5)网页结构化信息抽取类技术,网页上文本内容的相关性分析
(6)自然语言处理、简单的语意语法分析
(7)重复识别
(8)行业优化
(9)采集更多的数据
(10)跟踪互联网变化,细节上的优化,博弈
1.1.3搜索引擎的最新技术发展
搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。
搜索引擎的最新技术发展包括以下几个方面[2]:
(1)提高搜索引擎对用户检索提问的理解
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。
用户可以输入简单的疑问句,比如“howcankillvirusofcomputer?
”。
搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。
自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。
就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“howcankillvirusofcomputer?
”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
(2)对检索结果进行处理
1、基于链接评价的搜索引擎
2、基于访问大众性的搜索引擎
3、去掉检索结果中附加的多余信息
(3)确定搜索引擎信息搜集范围,提高搜索引擎的针对性
1、垂直主题搜索引擎
2、非WWW信息的搜索
3、多媒体搜索引擎
(4)提供更优化的检索结果
1、纯净搜索引擎
2、元搜索引擎
1.2课题来源、目的和意义
上世纪八十年代以来,全球信息量每隔20个月就增加近一倍。
一个不大的企业每天要生产100MB以上来自各方面的营业数据。
面对季度膨胀的信息量,人们受到“信息爆炸”,“混沌信息空间”和“数据过剩”的巨大压力。
信息爆炸带来了剧烈的市场变化。
展现在人们面前的已经不是局限于本部门、本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。
因此,如何从海量信息中得到有用信息是大家共同关注的热点问题。
目前互联网领域主要的通用搜索引擎服务商如Yahoo、Baidu、Google等,为用户提供的都是横向的海量信息搜索。
他们可以满足大量信息的横向搜索、提供,但很难兼顾搜索的准确度与相关度的质量。
通用搜索引擎的价值在于在所大量的信息导航,对于信息需求相对集中、分类更加详细的行业客户缺乏想到。
垂直搜索引擎的产生正是有效的解决了以上通用搜索引擎无法满足的市场需求。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页分析师以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。
然后将符合要求的数据存储到数据库,进行进一步的加工处理,如:
去重、分类等,最后分词、所以再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式返回给用户。
1.3主要研究内容
此次课题主要是通过对现在流行的几种垂直搜索技术进行研究,总结出开发垂直搜索引擎的一般模块及功能。
根据现有的搜索引擎的相关技术,设计并开发出一种高效准确的网页正文提取系统。
在设计开发的过程中,提取系统应体现自己的特点。
所以,本次设计的主要目标是建立一个由新闻信息结构化提取和检索为主要服务内容的新闻网页正文提取系统。
本次设计出来的网页正文提取系统所具有的特点是应用范围广。
该系统可以应用于网页去重,建立高质量的索引,获得准确的分类聚类结果以及为用户提供准确的文摘等。
研究的重点是合理的机内文本表示,寻找“发现”正文和噪声的方法,提取正文,去除噪声。
并针对网页表现形式多种多样,互联网网页源码风格差异较大等难点提出了解决方案。
2.网页正文提取系统的详细设计与实现
2.1基本原理
目前互联网上的大部分网页都是采用HTML格式,此格式采用大量的标签来控制网页显示的内容,例如,<
table>
标签用来定义表格,<
p>
标签用来进行文字分段。
HTML标签的书写格式比较自由,网页的表现形式也各种各样,因此不同的网页的链接等噪声信息和正文的呈现形式变化多样,只采用标签来进行正文提取难度较大。
因此根据中文新闻网页的特点,本文采用文献[4]提到的方法,利用中文标点符号定位正文所在标签,并针对此方法的不足,本文提出了利用中文标点结合链接数的方法定位包含正文的标签,然后利用中文标点及链接在每个子标签中的比例去除其中的噪声,准确提取正文内容。
针对有些网页尾部包含的无关链接的摘要噪声与正文形式类似的情况,本文发现正文块之间包含的链接个数较少,而正文与无关摘要噪声间通常相隔若干链接群的特点,提出了正文间最大链接数目的概念,可以有效去除正文后面跟随的无关链接的摘要信息,提高正文提取的准确率。
本文提取网页正文的方法分为两个步骤,首先利用网页的HTML内容建立符合W3C组织发布的DOM(DocumentObjectModel)标准的树形结构;
然后遍历网页的DOM树的各个标签节点,利用中文标点和链接信息定位正文所在标签,对此标签内容进行二次抽取,提取出准确的正文内容。
系统的原理流程图如图2-1所示。
2.2网页预处理系统
2.2.1HTML标签规范化
由于HTML标签文法的自由性,导致许多网页的标签使用不规范,为网页处理带来了很大困难。
例如某些开始标签没有对应的结束标签,标签的嵌套顺序错乱等。
因此首先需要对网页的HTML标签进行规范化。
本文采用开源工具HTMLTidy来对网页进行规范化,形成利于处理的规范HTML网页。
下面就处理页面源码时遇到的情况分类说明。
(1)结束符丢失或不匹配的检测和纠正
<
h1>
heading
h2>
subheading<
/h3>
修改为
heading<
/h1>
/h2>
(2)结束标记错位的纠正
hereisapara<
b>
bold<
i>
bolditalic<
/b>
bold?
/i>
normal?
(3)标题的修复
italicheading<
newparagraph
这类错误将影响到标题的显示,字体的颜色、大小等达不到预期的效果。
修改为
(4)标签的顺序错位
newparagraph<
boldtext
somemoreboldtext
boldtext<
somemoreboldtext<
(5)将<
hr>
匹配到正确的地方。
sub<
(6)在结束标签中丢失“/”
ahref="
#refs"
>
References<
a>
/a>
(7)列出丢失的标签
body>
<
li>
1stlistitem
2ndlistitem
ul>
1stlistitem<
/li>
2ndlistitem<
/ul>
2.2.1建立网页的DOM树结构
当建立了规范的HTML网页后,就需要将网页建立成符合W3C组织发布的DOM标准的树形结构,以方便网页的处理。
本文采用开源工具TinyXml建立网页的DOM树。
建立网页的DOM树后,每一个HTML标签对应一个树节点,嵌套的标签利用子树表示,因此可以方便地对网页标签进行遍历和其它操作。
因为我们已经知道要抽取的正文是放在table中的,文献[11]告诉我们,这类问题应该采用基于树结构的解决方案。
所以,我们需要先把网页表示成一棵树。
由于网页结构的复杂性。
在把网页表示成一棵树之前,必须先对网页进行预处理,使其变为规范的网页。
规范网页的要求如下[12]:
(1)“〈”和“〉”只能用来包含网页标记(tag),当在其它地方出现这两个符号时应该用“&
lt;
”和“&
gt;
”代替。
(2)所有的标记必须匹配。
即每个开始标记都对应一个结束标记。
(3)所有标记的属性值都必须放在引号中。
如〈ahref=“www.w3c.org”〉。
(4)所有的标记必须是正确嵌套的。
如〈a〉⋯〈b〉⋯〈/a〉⋯〈/b〉是不正确的嵌套。
正确的嵌套形式应该是〈a〉⋯〈b〉⋯〈/b〉⋯〈/a〉。
经过规范的网页可以很容易的根据其中HTML标记把它表示成一棵树,树中的每个结点包含了一对标记间的所有字符,结点的名字为对应的标记的名字。
2.3核心算法基本思想
经观察发现,新闻类的网页的正文绝大部分都包含在<
、<
div>
和<
标签中,其中<
标签一般包含正文的主体部分,<
中包含正文的剩余段落,而且正文中含有较多中文标点而含有较少的链接(<
标签)。
因此本文先利用中文标点和链接信息来定位最可能包含正文部分的标签,然后对这些标签下的内容进行筛选,提取出正文内容。
算法的具体步骤如下[12]:
(1)去除包含噪声的树节点
有些HTML标签不会包含正文内容,如下拉表单标签<
select>
,图片标签<
img>
,<
script>
span>
等。
为了提高效率,本文首先遍历DOM树,删除这些不可能包含正文内容的标签对应的树节点。
(2)定位包含正文的树节点
网页的大段正文一般包含在一个<
标签中,一些段落还可能出现在<
标签中。
因此本文采用的方法是,利用中文标点和链接内容定位包含最多正文内容和最少噪声的<
或<
树节点。
对每个<
标签对应的树节点计算包含正文的权重,计算公式如下:
(2-1)
公式(4-1)中Weighti表示可能包含正文的第i个树节点(仅限<
对应的树节点)的权重,权重越大说明此节点包含正文的内容越多而包含噪声信息越少。
np表示此节点包含的中文标点的个数,nl表示包含的链接个数,nn表示包含的噪声标签的个数,包括表单标签<
form>
input>
,因为网页正文的后面一般会跟随可以供用户填写的表单,因此如果节点i中包含此类标签则说明它已经包含了所有正文并且包含了正文块后面的噪声内容,需要将其权重减小。
和
分别是系数。
经训练得到
取0.3而
取0.2可以使节点权重更好的反应其包含的正文和噪声比例。
建立一个空的用于存放包含正文的子树集合A,采用公式(2-1)对每个<
计算权重,选取权重最大的树节点nodemax,则认为此节点包含的子树中具有最多的正文与最少的噪声信息,将此子树加入候选的正文节点中,
。
同时,由于分段标签<
一般都会包含正文,因此也将所有<
标签对应的子树加入正文节点集合中。
(3)从定位的树节点中提取正文内容
本步骤的任务是从包含正文的候选子树集合A中的每个节点中提取出正文内容。
因此需要对这些子树包含的每个子节点计算包含噪声的权重,如果此权重较小则认为此子节点包含的噪声较少而正文较多,提取出此节点对应的标签嵌套包含的文字信息加入正文。
其中计算节点的噪声权重采用公式(2-2):
(2-2)
Wi表示子节点i的噪声权重,na表示此子节点对应子树中包含的链接标签<
的个数,N为此子节点对应子树包含的所有标签数,ca表示包含的<
标签所包含的链接汉字数,C表示子节点对应子树中包含的所有汉字数。
为系数,经过训练得到
分别取0.35与0.65。
此公式利用了链接标签占子树所有标签的比例与链接汉字数占子树所有汉字数,用此公式计算的A集合中所有子树包含的子节点的噪声权重,如果某子节点权重小于阈值
则认为其对应子树中包含的所有文字都是正文,如此筛选可以有效地抽取正文并且避免将噪声文字作为正文抽取出来。
根据nodemax包含的正文字数(Word)设置正文间最大链接个数(MaxLinkNum)采用公式(2-3):
(2-3)
将MaxLinkNum设置完毕后,对nodemax标签以及位于其前的<
标签进行正文抽取。
然后从nodemax标签向后查找<
标签,遇到<
标签则将MaxLinkNum减1,遇到<
等明显的网页分隔符则将MaxLinkNum除以2。
但找到<
标签时,如果MaxLinkNum不为0则根据公式(2-2)提取出其中包含的正文内容,如果MaxLinkNum减到0则认为正文内容已经结束,不再向后查找<
节点。
根据上述方法提取正文不但可以提取尽可能多的正文内容,而且可以防止将噪声信息作为正文提取出来。
2.4本章小结
本章详细阐述了本次设计工作的主要内容:
正文提取的一种方法是利用HTML的DOM树来完成对网页的正文信息的分析和提取。
DOM(DocumentObjectModel)是由W3C组织发布的一种访问和操作HTML文档的规范。
DOM将HTML文档表示为树形对象集合的形式,一个DOM树包含有元素、树形、文本等,每一个HTML的元素被表示为树的一个节点,其中HTML中的嵌套结构被用DOM树中节点的父子关系表示,并列结构被表示为节点的兄弟关系。
利用DOM树提取网页正文方法的思路是利用网页的源文件建立一个DOM树结构,遍历DOM树,从网页中删除掉所有不是正文的信息,包括广告信息、图片、链接群等,这样剩下的就是正文信息。
此方法的具体步骤是:
(1)利用开源工具建立HTML文件的DOM树。
由于一些HTML文件书写错误或者不规范,因此要改正HTML文件中的书写错误,之后再根据HTML文件建立起与之相对应的DOM树,可以使用OpenXML工具来完成HTML文件的更正和建立DOM树工作。
(2)递归地遍历DOM树,移除DOM树中的各种非正文信息,主要包括广告信息、链接群信息和非重要节点信息。
广告信息的移除:
首先需要建立一个经常更新的广告服务器列表,然后通过对每个链接的链接地址(src,href的值)进行判断,如果地址是指向列表中的广告服务器地址则将此链接节点删除。
链接群的移除:
计算每一个节点所包含的链接个数相对非链接的词个数的比例,如果比例大于一个给定的阈值则删除此节点。
删除不包含重要信息的节点:
用户事先指定一些不重要的HTML标签以及一个有用标签至少需要包含多少字符,系统在DOMtree中查找所有用户指定的HTML标签以及包含字符数少于阈值的节点将其删除。
当将上述非正文信息移除掉后,DOM树中剩余的内容就是正文信息,可以直接从余下的树节点中抽取出正文信息。
结论
全文介绍了嵌入式Linux和搜索引擎的背景资料,提出了此次课题的目标和意义。
通过研究讨论了网页正文提取主要功能,提出了总体设计方案——此次设计提取的流程。
之后详细总结说明了网页预处理,提取,用户界面三个组成部分的设计和实现方法,深入浅出的阐述了编写基本提取算法的过程,为垂直搜索引擎的技术发展提供了一套的解决方案。
在论文完成过程中,理论研究方面对垂直搜索引擎所需要的技术支持进行了系统的研究;
针对在网页去重、建立高质量的索引、获得准确的分类聚类结果以及为用户提供准确的文摘等方面的广泛应用,设计实现了网页正文提取系统。
此次设计虽说已经完成了任务,但由于时间仓促,在仍然有着许多不足,主要存在着以下几个方面:
(1)正文提取对于小网站上不规范的网页处理结果不理想,包含的噪声较多。
(2)提高程序效率:
预处理费时最多,找到更好的开源工具或对现在所用工具进行优化。
参考文献
1卢亮,张博文.搜索引擎原理实践与应用.电子工业出版社,2007:
44-46
2孙天泽,袁文菊,张海峰.嵌入式设计及LINUX驱动开发指南.电子工业出版社,2005:
95-97
3毛德操,胡希明.Linux内核情景分析.浙江大学出版社,2005:
23-24
4王骏.基于垂直搜索引擎技术的房源信息分析系统的设计与实现.苏州大学硕士学位论文.2006:
12-13
5邱哲,符滔滔.开发自己的搜索引擎.人民邮电出版社,2007:
2-3
6魏洪兴.嵌入式系统开发与应用.清华大学出版社,2006:
33-35
7苏新宁.信息检索理论与技术.科技文献出版社,2004:
8苗夺谦,卫志华.中文文本信息处理原理与应用.清华大学出版社,2007:
3-4
9李良炎.基于词链接的自然语言处理技术及其应用研究.学林出版社,2007:
23-55
10洪兴.嵌入式系统设计师教程.清华大学出版社,2006:
11-24
11Karim,Yaghmour.BuildingEmbeddedLinuxSystems.2003:
366-389
12MiroSamekPh.D.PracticalStatechartsinC/C++QuantumProgrammingforEmbeddedSystems.北京航空航天大学出版社,2003:
64-72
13AlfredL.Crouch.Design-For-TestForDigitalIC'
sandEmbeddedCoreSystems.电子工业出版社,2005:
211-255
所呈交的毕业设计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网页 正文 提取 系统 详细 设计 实现 毕业设计 论文