书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 能源化工 > 使用 HttpClient 和 HtmlParser 实现简易爬虫.docx

使用 HttpClient 和 HtmlParser 实现简易爬虫.docx

文档编号：3097924
上传时间：2023-05-05
格式：DOCX
页数：14
大小：57.06KB

《使用 HttpClient 和 HtmlParser 实现简易爬虫.docx》由会员分享，可在线阅读，更多相关《使用 HttpClient 和 HtmlParser 实现简易爬虫.docx（14页珍藏版）》请在冰点文库上搜索。

使用 HttpClient 和 HtmlParser 实现简易爬虫.docx

使用HttpClient和HtmlParser实现简易爬虫

（二）

HtmlParser提供了强大的类库来处理Internet上的网页，可以实现对网页特定内容的提取和修改。

下面通过几个例子来介绍HtmlParser的一些使用。

这些例子其中的代码，有部分用在了后面介绍的简易爬虫中。

以下所有的代码和方法都在在类HtmlParser.Test.java里，这是笔者编写的一个用来测试HtmlParser用法的类。

迭代遍历网页所有节点

网页是一个半结构化的嵌套文本文件，有类似XML文件的树形嵌套结构。

使用HtmlParser可以让我们轻易的迭代遍历网页的所有节点。

清单3展示了如何来实现这个功能。

//循环访问所有节点，输出包含关键字的值节点

publicstaticvoidextractKeyWordText（Stringurl,Stringkeyword）{

try{

//生成一个解析器对象，用网页的url作为参数

Parserparser=newParser（url）;

//设置网页的编码,这里只是请求了一个gb2312编码网页

parser.setEncoding（"gb2312"）;

//迭代所有节点,null表示不使用NodeFilter

NodeListlist=parser.parse（null）;

//从初始的节点列表跌倒所有的节点

processNodeList（list,keyword）;

}catch（ParserExceptione）{

e.printStackTrace（）;

}

privatestaticvoidprocessNodeList（NodeListlist,Stringkeyword）{

//迭代开始

SimpleNodeIteratoriterator=list.elements（）;

while（iterator.hasMoreNodes（））{

Nodenode=iterator.nextNode（）;

//得到该节点的子节点列表

NodeListchildList=node.getChildren（）;

//孩子节点为空，说明是值节点

if（null==childList）

{

//得到值节点的值

Stringresult=node.toPlainTextString（）;

//若包含关键字，则简单打印出来文本

if（result.indexOf（keyword）!

=-1）

System.out.println（result）;

}//endif

//孩子节点不为空，继续迭代该孩子节点

else

{

processNodeList（childList,keyword）;

}//endelse

}//endwile

}

上面的中有两个方法：

1privatestaticvoidprocessNodeList（NodeListlist,Stringkeyword）

该方法是用类似深度优先的方法来迭代遍历整个网页节点，将那些包含了某个关键字的值节点的值打印出来。

1publicstaticvoidextractKeyWordText（Stringurl,Stringkeyword）

该方法生成针对String类型的url变量代表的某个特定网页的解析器，调用1中的方法实现简单的遍历。

清单3的代码展示了如何迭代所有的网页，更多的工作可以在此基础上展开。

比如找到某个特定的网页内部节点，其实就可以在遍历所有的节点基础上来判断，看被迭代的节点是否满足特定的需要。

使用NodeFilter

NodeFilter是一个接口，任何一个自定义的Filter都需要实现这个接口中的booleanaccept（）方法。

如果希望迭代网页节点的时候保留当前节点，则在节点条件满足的情况下返回true；否则返回false。

HtmlParse里提供了很多实现了NodeFilter接口的类，下面就一些笔者所用到的，以及常用的Filter做一些介绍：

1对Filter做逻辑操作的Fitler有：

，，，。

这些Filter来组合不同的Filter，形成满足两个Filter逻辑关系结果的Filter。

1判断节点的孩子，兄弟，以及父亲节点情况的Filter有：

，。

1判断节点本身情况的Filter有：

判读节点是否有特定属性；：

判断节点是否是具有特定模式（pattern）url的节点；

：

判断节点是否具有特定的名字；NodeClassFilter：

判读节点是否是某个HtmlParser定义好的Tag类型。

在org.htmlparser.tags包下有对应Html标签的各种Tag，例如LinkTag，ImgeTag等。

还有其他的一些Filter在这里不一一列举了，可以在org.htmlparser.filters下找到。

清单4展示了如何使用上面提到过的一些filter来抽取网页中的标签里的href属性值，标签里的src属性值，以及标签里的src的属性值。

//获取一个网页上所有的链接和图片链接

publicstaticvoidextracLinks（Stringurl）{

try{

Parserparser=newParser（url）;

parser.setEncoding（"gb2312"）;

//过滤标签的filter，用来提取frame标签里的src属性所、表示的链接

NodeFilterframeFilter=newNodeFilter（）{

publicbooleanaccept（Nodenode）{

if（node.getText（）.startsWith（"framesrc="））{

//OrFilter来设置过滤标签，标签和标签，三个标签是or的关系

OrFilterorFilter=newOrFilter（newNodeClassFilter（LinkTag.class）,new

NodeClassFilter（ImageTag.class））;

OrFilterlinkFilter=newOrFilter（orFilter,frameFilter）;

//得到所有经过过滤的标签

NodeListlist=parser.extractAllNodesThatMatch（linkFilter）;

for（inti=0;i

Nodetag=list.elementAt（i）;

if（taginstanceofLinkTag）//标签

{

LinkTaglink=（LinkTag）tag;

StringlinkUrl=link.getLink（）;//url

Stringtext=link.getLinkText（）;//链接文字

System.out.println（linkUrl+"**********"+text）;

}

elseif（taginstanceofImageTag）//标签

{

ImageTagimage=（ImageTag）list.elementAt（i）;

System.out.print（image.getImageURL（）+"********"）;//图片地址

System.out.println（image.getText（））;//图片文字

Stringframe=tag.getText（）;

intstart=frame.indexOf（"src="）;

frame=frame.substring（start）;

intend=frame.indexOf（""）;

if（end==-1）

end=frame.indexOf（">"）;

frame=frame.substring（5,end-1）;

System.out.println（frame）;

}

}catch（ParserExceptione）{

e.printStackTrace（）;

}

简单强大的StringBean

如果你想要网页中去掉所有的标签后剩下的文本，那就是用StringBean吧。

以下简单的代码可以帮你解决这样的问题：

清单5

StringBeansb=newStringBean（）;

sb.setLinks（false）;//设置结果中去点链接

sb.setURL（url）;//设置你所需要滤掉网页标签的页面url

System.out.println（sb.getStrings（））;//打印结果

HtmlParser提供了强大的类库来处理网页，由于本文旨在简单的介绍，因此只是将与笔者后续爬虫部分有关的关键类库进行了示例说明。

感兴趣的读者可以专门来研究一下HtmlParser更为强大的类库。

HttpClient提供了便利的HTTP协议访问，使得我们可以很容易的得到某个网页的源码并保存在本地；HtmlParser提供了如此简便灵巧的类库，可以从网页中便捷的提取出指向其他网页的超链接。

笔者结合这两个开源包，构建了一个简易的网络爬虫。

学过数据结构的读者都知道有向图这种数据结构。

如下图所示，如果将网页看成是图中的某一个节点，而将网页中指向其他网页的链接看成是这个节点指向其他节点的边，那么我们很容易将整个Internet上的网页建模成一个有向图。

理论上，通过遍历算法遍历该图，可以访问到Internet上的几乎所有的网页。

最简单的遍历就是宽度优先以及深度优先。

以下笔者实现的简易爬虫就是使用了宽度优先的爬行策略。

在看简易爬虫的实现代码之前，先介绍一下简易爬虫爬取网页的流程。

对应上面的流程图，简易爬虫由下面几个类组成，各个类职责如下：

Crawler.java：

爬虫的主方法入口所在的类，实现爬取的主要流程。

LinkDb.java：

用来保存已经访问的url和待爬取的url的类，提供url出对入队操作。

Queue.java：

实现了一个简单的队列，在LinkDb.java中使用了此类。

一个接口，实现其accept（）方法用来对抽取的链接进行过滤。

下面是各个类的源码，代码中的注释有比较详细的说明。

privatevoidinitCrawlerWithSeeds（String[]seeds）

{

for（inti=0;i

LinkDB.addUnvisitedUrl（seeds[i]）;

}

/*爬取方法*/

publicvoidcrawling（String[]seeds）

{

LinkFilterfilter=newLinkFilter（）{

//提取以开头的链接

publicbooleanaccept（Stringurl）{

if（url.startsWith（""））

initCrawlerWithSeeds（seeds）;

//循环条件：

待抓取的链接不空且抓取的网页不多于1000

while（!

LinkDB.unVisitedUrlsEmpty（）&&LinkDB.getVisitedUrlNum（）<=1000）

{

//队头URL出对

StringvisitUrl=LinkDB.unVisitedUrlDeQueue（）;

if（visitUrl==null）

continue;

FileDownLoaderdownLoader=newFileDownLoader（）;

//下载网页

downLoader.downloadFile（visitUrl）;

//该url放入到已访问的URL中

LinkDB.addVisitedUrl（visitUrl）;

//提取出下载网页中的URL

Setlinks=HtmlParserTool.extracLinks（visitUrl,filter）;

LinkDB.addUnvisitedUrl（link）;

}

//main方法入口

publicstaticvoidmain（String[]args）

{

Crawlercrawler=newCrawler（）;

crawler.crawling（newString[]{""}）;

}

packagecom.ie;

importjava.util.HashSet;

importjava.util.Set;

/**

*用来保存已经访问过Url和待访问的Url的类

*/

publicclassLinkDB{

//已访问的url集合

privatestaticSetvisitedUrl=newHashSet（）;

//待访问的url集合

privatestaticQueueunVisitedUrl=newQueue（）;

publicstaticQueuegetUnVisitedUrl（）{

returnunVisitedUrl;

}

publicstaticvoidaddVisitedUrl（Stringurl）{

visitedUrl.add（url）;

}

publicstaticvoidremoveVisitedUrl（Stringurl）{

visitedUrl.remove（url）;

}

publicstaticStringunVisitedUrlDeQueue（）{

returnunVisitedUrl.deQueue（）;

}

//保证每个url只被访问一次

publicstaticvoidaddUnvisitedUrl（Stringurl）{

if（url!

=null&&!

url.trim（）.equals（""）

&&!

visitedUrl.contains（url）

&&!

unVisitedUrl.contians（url））

unVisitedUrl.enQueue（url）;

}

publicstaticintgetVisitedUrlNum（）{

returnvisitedUrl.size（）;

}

publicstaticbooleanunVisitedUrlsEmpty（）{

returnunVisitedUrl.empty（）;

}

packagecom.ie;

importjava.util.LinkedList;

privateLinkedListqueue=newLinkedList（）;

publicvoidenQueue（Tt）

returnqueue.removeFirst（）;

}

publicbooleanisQueueEmpty（）

{

returnqueue.isEmpty（）;

}

publicbooleancontians（Tt）

{

returnqueue.contains（t）;

}

publicbooleanempty（）

{

returnqueue.isEmpty（）;

}

packagecom.ie;

importjava.io.DataOutputStream;

importjava.io.File;

importjava.io.FileOutputStream;

importjava.io.IOException;

importmons.httpclient.DefaultHttpMethodRetryHandler;

importmons.httpclient.HttpClient;

importmons.httpclient.HttpException;

importmons.httpclient.HttpStatus;

importmons.httpclient.methods.GetMethod;

importmons.httpclient.params.HttpMethodParams;

publicclassFileDownLoader{

/**根据url和网页类型生成需要保存的网页的文件名

*去除掉url中非文件名字符

*/

publicStringgetFileNameByUrl（Stringurl,StringcontentType）

{

url=url.substring（7）;//removehttp:

//

if（contentType.indexOf（"html"）!

=-1）//text/html

{

url=url.replaceAll（"[\\?

/:

*|<>\"]","_"）+".html";

returnurl;

}

else//如application/pdf

{

returnurl.replaceAll（"[\\?

/:

*|<>\"]","_"）+"."+\

contentType.substring（contentType.lastIndexOf（"/"）+1）;

}

/**保存网页字节数组到本地文件

*filePath为要保存的文件的相对地址

*/

privatevoidsaveToLocal（byte[]data,StringfilePath）

{

try{

DataOutputStreamout=newDataOutputStream（

newFileOutputStream（newFile（filePath）））;

}catch（IOExceptione）{

e.printStackTrace（）;

}

/*下载url指向的网页*/

publicStringdownloadFile（Stringurl）

{

StringfilePath=null;

/*1.生成HttpClinet对象并设置参数*/

HttpClienthttpClient=newHttpClient（）;

//设置Http连接超时5s

httpClient.getHttpConnectionManager（）.getParams（）.

setConnectionTimeout（5000）;

/*2.生成GetMethod对象并设置参数*/

GetMethodgetMethod=newGetMethod（url）;

//设置get请求超时5s

getMethod.getParams（）.setParameter（HttpMethodParams.SO_TIMEOUT,5000）;

//设置请求重试处理

getMethod.getParams（）.setParameter（HttpMethodParams.RETRY_HANDLER,

newDefaultHttpMethodRetryHandler（））;

/*3.执行HTTPGET请求*/

try{

intstatusCode=httpClient.executeMethod（getMethod）;

System.err.println（"Methodfailed:

"+getMethod.getStatusLine（））;

filePath=null;

}

/*4.处理HTTP响应内容*/

byte[]responseBody=getMethod.getResponseBody（）;//读取为字节数组

//根据网页url生成保存时的文件名

filePath="temp\\"+getFileNameByUrl（url,

getMethod.getResponseHeader（"Content-Type"）.getValue（））;

saveToLo

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 使用 HttpClient HtmlParser 实现简易爬虫实现简易爬虫

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：使用 HttpClient 和 HtmlParser 实现简易爬虫.docx
链接地址：https://www.bingdoc.com/p-3097924.html

使用 HttpClient 和 HtmlParser 实现简易爬虫.docx

热门标签