网络爬虫的设计与实现文献综述Word文档格式.docx
- 文档编号:3690654
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:9
- 大小:18.35KB
网络爬虫的设计与实现文献综述Word文档格式.docx
《网络爬虫的设计与实现文献综述Word文档格式.docx》由会员分享,可在线阅读,更多相关《网络爬虫的设计与实现文献综述Word文档格式.docx(9页珍藏版)》请在冰点文库上搜索。
With
the
rapid
development
Internet,search
engines
as
main
entrance
Internet
plays
a
more
important
role.Web
crawler
is
very
part
search
engines,a
program
which
can
auto
collect
information
form
Internet,which
responsible
to
web
pages
from
Internet.These
are
used
build
index
provide
support
for
engines.Spider
data
engines,also
be
directional
collector,collects
specifically
informations
some
sites,such
HR
informations,house
rent
informations.In
this
paper,use
JAVA
implements
breadth-first
algorithm
Spider.The
paper,discussing
application
engine,searches
importance
function
in
engine,and
puts
forward
its
demand
3/13
designOn
base
analyzing
Crawler’s
system
strtucture
working
elements,this
paper
also
researches
method
strategy
multithreading
scheduler,Web
page
crawling
HTML
parsingAnd
then,a
based
on
Java
applied
analyzedThrough
site
or
multiple
URL.Links
outside
network,you
crawl
most
China’s
major
large-scale
portal
as:
Baidu,Sina,Netease.
3.2.3功能需求13
3.3系统功能实现14
4网络爬虫16
4.1本系统所采用的搜索策略16
4.2HTMLPARSER16
4.3网络爬虫程序流程17
4.3.1爬虫主要流程代码17
4.3.2爬虫程序流程图22
5实验效果及分析23
5.1系统实验环境及配臵23
5.2系统测试23
6全文总结24
6.1工作总结24
6.2研究展望25
致谢27
参考文献28
5/13
1绪论
网络的迅猛发展带来的是互联网信息的爆炸性增长,这使得互联网信息容量达到了一个空前的高度。
然而,人们从互联网上获取信息的能力是有限的,人们越来越需要一种有效的途径可以帮助他们全面、快速、准确的获取信息。
Web搜索引擎的出现解决了这一问题,它成为人们获取网络信息的必不可少的工具。
然而,谁也无法确定互联网上到底有多少网页,保守估计,它至少包含成百上千亿的网页。
互联网的规模十分庞大,每天都有无数的网站上线,无数的网页信息发布,无数的页面更新,所以,导致信息爆炸式增长的最根本原因在于人们无法集中控制网页内容的发布机制,这也为Web搜索引擎索引和检索这些发布的内容带来了巨大的挑战。
网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
随着网络信息量几何级的增长,对网络爬虫页面采集的性能和效率的要求也越来越高。
(3)完成用户提交查询请求的网页检索器:
网页检索器一般是一个在Web服务器上运行的服务器程序,它首先接收用户提交的查询条件,根据查询条件对索引库进行查找并将查询到的结果返回给用户。
当用户使用搜索引擎查找信息时,网页检索器接收用户提交的关键词,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
有的搜索引擎系统综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。
最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
典型的搜索引擎系统如Google就是采用这种策略。
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。
搜索引擎技术的研究,国外
7/13
比中国要早近十年,从最早的Archie,到后来的Excite,以及ahvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。
在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。
例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。
虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度、中搜等。
随着搜索引擎技术的成熟,它将成为获取信息、掌握知识的利器。
但是现有的搜索引擎对于用户所提出的查询要求仅限于关键词的简单逻辑组合,搜索结果重视的是返回的数量而不是质量,在结果文档的组织和分类上也有所欠缺。
国外的一次调查结果显示,约有71的人对搜索的结果感到不同程度的失望。
因此,如何提高搜索引擎的智能化程度,如何按照知识应用的需要来组织信息,使互联网不仅提供信息服务,而且能为用户提供知识服务,将成为计算机工业界和学术界有待研究的方向。
第六部分——全文总结。
对全文的工作进行总结,并对后续的研究提出一些展望。
2系统开发工具和平台及相关技术介绍
本章内容介绍了本系统所采用的开发工具及所用平台。
本系统采用了JAVA语言、MyEclipse8.5以及tomcat6.0。
2.1程序开发工具
2.1.1JDK
JDKJava
Development
Kit是Sun
Microsystems针对Java开发员的产品。
自从Java推出以来,JDK已经成为使用最广泛的Java
SDK。
JDK是整个Java的核心,包括了Java运行环境、Java工具和Java基础类库。
JDK是学好Java的第一步。
而专门运行在x86平台的Jrocket在服务端运行效率也要比Sun
JDK好很多。
从SUN的JDK5.0开始,提供了泛型等非常实用的功能,
9/13
其版本也不断更新,运行效率得到了非常大的提高。
JDK包含的基本组件包括:
javac
–编译器,将源程序转成字节码
jar
–打包工具,将相关的类文件打包成一个文件
javadoc
–文档生成器,从源码注释中提取文档
jdb
–debugger,查错工具
java
–运行编译后的java程序.class后缀的
appletviewer:
小程序浏览器,一种执行HTML文件上的Java小程序的Java浏览器
Javah:
产生可以调用Java过程的C过程,或建立能被Java程序调用的C过程的头文件
Javap:
Java反汇编器,显示编译类文件中的可访问功能和数据,同时显示字节代码含义
Jconsole:
Java进行系统调试和监控的工具。
2.1.2MYECLIPSE
MyEclipse是一个十分优秀的,用于开发Java
J2EE的Eclipse插件集合。
MyEclipse的功能非常强大,支持也十分广泛,尤其是对各种开源产品的支持非常好。
MyEclipse企业级工作平台(MyEclipse
Enterprise
Workbench,简称MyEclipse)是对Eclipse
IDE的扩展。
利用它可以在数据库和JavaEE的开发、发布,以及应用程序服务器的整合方面极大地提高工作效率。
它是功能丰富的JavaEE集成开发环境,包括了完备的编码、调试、测试和发布功能,完整支持HTML、Struts、JSF、CSS、JavaScript、SQL和Hibernate。
11/13
1.servlet是持久的。
servlet只需Web服务器加载一次,后续又用到这个servlet,就不需要再加载。
(所谓加载是指servlet加载进JVM运行)
2.servlet是与平台无关的。
3.servlet是可扩展的。
ActionServlet继承自javax.servlet.http.HttpServlet类,其在Struts
framework中扮演的角色是中心控制器。
它提供一个中心位臵来处理全部的终端请求。
控制器ActionServlet主要负责将HTTP的客户请求信息组装后,根据配臵文件的指定描述,转发到适当的处理器Action。
Servlet的原理图描述如下:
图2.1Servlet的原理
使用servlet有几个优点:
一是有效性,servlet的初始化代码仅在web服务器第一次加载的时候执行一次,一旦加载了servlet,在处理一个新的请求的时候,只须调用一个新的服务方法。
与处理每个请求都要全部加载一个完整的可执行程序相比,效率得到了大大的提高。
二是稳定性,servlet能够维护每个请求的状态,一旦加载了servlet,它就驻留在内存中,对收到的请求提供服务。
三是可移植性,servlet是用java开发的,因此它是可移植的,这种可移植性使servlet能够移植到新的操作系统中而不必改变代码。
四是安全性,servlet在服务器端运行,因此,安全性由web服务器提供能保障,servlet也能够利用java
Security
Manager提供的安全性功能。
2.2解析HTML
因为Web中的信息都是建立在HTML协议之上的,所以网络爬虫在检索网页时的第一个问题就是如何解
13/13
析HTML。
在解决如何解析之前,先来介绍下HTML中的几种数据。
文本:
除了脚本和标签之外的所有数据
注释:
程序员留下的说明文字,对用户是不可见的
简单标签:
由单个表示的HTML标签
开始标签和结束标签:
用来控制所包含的HTML代码。
我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 爬虫 设计 实现 文献 综述