书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 农林牧渔 > 林学 > jsoup中文帮助文档综述.docx

jsoup中文帮助文档综述.docx

文档编号：14089130
上传时间：2023-06-20
格式：DOCX
页数：21
大小：26.02KB

jsoup中文帮助文档综述.docx

《jsoup中文帮助文档综述.docx》由会员分享，可在线阅读，更多相关《jsoup中文帮助文档综述.docx（21页珍藏版）》请在冰点文库上搜索。

jsoup中文帮助文档综述.docx

jsoup中文帮助文档综述

jsoupCookbook（中文版）

入门

1.解析和遍历一个html文档

输入

2.解析一个html字符串

3.解析一个body片断

4.根据一个url加载Document对象

5.根据一个文件加载Document对象

数据抽取

6.使用dom方法来遍历一个Document对象

7.使用选择器语法来查找元素

8.从元素集合抽取属性、文本和html内容

9.URL处理

10.程序示例：

获取所有链接

数据修改

11.设置属性值

12.设置元素的html内容

13.设置元素的文本内容

html清理

14.消除不受信任的html（来防止xss攻击）

1.解析和遍历一个HTML文档

如何解析一个HTML文档：

Stringhtml="Firstparse"

ParsedHTMLintoadoc.

Documentdoc=Jsoup.parse（html）;

（更详细内容可查看解析一个HTML字符串.）

其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。

比如它可以处理：

∙没有关闭的标签（比如：

Lorem

Ipsumparsesto

Lorem

Ipsum

）

∙隐式标签（比如.它可以自动将Tabledata包装成

）

∙创建可靠的文档结构（html标签包含head和body，在head只出现恰当的元素）

一个文档的对象模型

∙文档由多个Elements和TextNodes组成（以及其它辅助nodes：

详细可查看：

nodespackagetree）.

∙其继承结构如下：

Document继承Element继承Node.TextNode继承Node.

∙一个Element包含一个子节点集合，并拥有一个父Element。

他们还提供了一个唯一的子元素过滤列表。

参见

∙数据抽取：

DOM遍历

∙数据抽取：

Selectorsyntax

2.解析一个HTML字符串

存在问题

来自用户输入，一个文件或一个网站的HTML字符串，你可能需要对它进行解析并取其内容，或校验其格式是否完整，或想修改它。

怎么办？

jsonu能够帮你轻松解决这些问题

解决方法

使用静态Jsoup.parse（Stringhtml）方法或Jsoup.parse（Stringhtml,StringbaseUri）示例代码：

Stringhtml="Firstparse"

ParsedHTMLintoadoc.

Documentdoc=Jsoup.parse（html）;

描述

parse（Stringhtml,StringbaseUri）这方法能够将输入的HTML解析为一个新的文档（Document），参数baseUri是用来将相对URL转成绝对URL，并指定从哪个网站获取文档。

如这个方法不适用，你可以使用parse（Stringhtml）方法来解析成HTML字符串如上面的示例。

只要解析的不是空字符串，就能返回一个结构合理的文档，其中包含（至少）一个head和一个body元素。

一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类Element和Node中的方法来取得相关数据。

3.解析一个body片断

问题

假如你有一个HTML片断（比如.一个div包含一对p标签;一个不完整的HTML文档）想对它进行解析。

这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分。

办法

使用Jsoup.parseBodyFragment（Stringhtml）方法.

Stringhtml="

Loremipsum.

Documentdoc=Jsoup.parseBodyFragment（html）;

Elementbody=doc.body（）;

说明

parseBodyFragment方法创建一个空壳的文档，并插入解析过的HTML到body元素中。

假如你使用正常的Jsoup.parse（Stringhtml）方法，通常你也可以得到相同的结果，但是明确将用户输入作为body片段处理，以确保用户所提供的任何糟糕的HTML都将被解析成body元素。

Document.body（）方法能够取得文档body元素的所有子元素，与doc.getElementsByTag（"body"）相同。

保证安全Staysafe

假如你可以让用户输入HTML内容，那么要小心避免跨站脚本攻击。

利用基于Whitelist的清除器和clean（StringbodyHtml,Whitelistwhitelist）方法来清除用户输入的恶意内容。

4.从一个URL加载一个Document

存在问题

你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。

你可以使用下面解决方法：

解决方法

使用Jsoup.connect（Stringurl）方法:

Documentdoc=Jsoup.connect（"

Stringtitle=doc.title（）;

说明

connect（Stringurl）方法创建一个新的Connection,和get（）取得和解析一个HTML文件。

如果从该URL获取HTML时发生错误，便会抛出IOException，应适当处理。

Connection接口还提供一个方法链来解决特殊请求，具体如下：

Documentdoc=Jsoup.connect（""）

.data（"query","Java"）

.userAgent（"Mozilla"）

.cookie（"auth","token"）

.timeout（3000）

.post（）;

这个方法只支持WebURLs（http和https协议）;假如你需要从一个文件加载，可以使用parse（Filein,StringcharsetName）代替。

5.从一个文件加载一个文档

问题

在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。

办法

可以使用静态Jsoup.parse（Filein,StringcharsetName,StringbaseUri）方法：

Fileinput=newFile（"/tmp/input.html"）;

Documentdoc=Jsoup.parse（input,"UTF-8","

说明

parse（Filein,StringcharsetName,StringbaseUri）这个方法用来加载和解析一个HTML文件。

如在加载文件的时候发生错误，将抛出IOException，应作适当处理。

baseUri参数用于解决文件中URLs是相对路径的问题。

如果不需要可以传入一个空的字符串。

另外还有一个方法parse（Filein,StringcharsetName），它使用文件的路径做为baseUri。

这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。

6.使用DOM方法来遍历一个文档

问题

你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。

示例代码：

Fileinput=newFile（"/tmp/input.html"）;

Documentdoc=Jsoup.parse（input,"UTF-8","

Elementcontent=doc.getElementById（"content"）;

Elementslinks=content.getElementsByTag（"a"）;

for（Elementlink:

links）{

StringlinkHref=link.attr（"href"）;

StringlinkText=link.text（）;

}

说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。

具体如下：

查找元素

∙getElementById（Stringid）

∙getElementsByTag（Stringtag）

∙getElementsByClass（StringclassName）

∙getElementsByAttribute（Stringkey）（andrelatedmethods）

∙Elementsiblings:

siblingElements（）,firstElementSibling（）,lastElementSibling（）;nextElementSibling（）,previousElementSibling（）

∙Graph:

parent（）,children（）,child（intindex）

元素数据

∙attr（Stringkey）获取属性attr（Stringkey,Stringvalue）设置属性

∙attributes（）获取所有属性

∙id（）,className（）andclassNames（）

∙text（）获取文本内容text（Stringvalue）设置文本内容

∙html（）获取元素内HTMLhtml（Stringvalue）设置元素内的HTML内容

∙outerHtml（）获取元素外HTML内容

∙data（）获取数据内容（例如：

script和style标签）

∙tag（）andtagName（）

操作HTML和文本

∙append（Stringhtml）,prepend（Stringhtml）

∙appendText（Stringtext）,prependText（Stringtext）

∙appendElement（StringtagName）,prependElement（StringtagName）

∙html（Stringvalue）

7.使用选择器语法来查找元素

问题

你想使用类似于CSS或jQuery的语法来查找和操作元素。

方法

可以使用Element.select（Stringselector）和Elements.select（Stringselector）方法实现：

Fileinput=newFile（"/tmp/input.html"）;

Documentdoc=Jsoup.parse（input,"UTF-8","

Elementslinks=doc.select（"a[href]"）;//带有href属性的a元素

Elementspngs=doc.select（"img[src$=.png]"）;

//扩展名为.png的图片

Elementmasthead=doc.select（"div.masthead"）.first（）;

//class等于masthead的div标签

ElementsresultLinks=doc.select（"h3.r>a"）;//在h3元素之后的a元素

说明

jsoupelements对象支持类似于CSS（或jquery）的选择器语法，来实现非常强大和灵活的查找功能。

这个select方法在Document,Element,或Elements对象中都可以使用。

且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述

∙tagname:

通过标签查找元素，比如：

∙ns|tag:

通过标签在命名空间查找元素，比如：

可以用fb|name语法来查找

name>元素

∙#id:

通过ID查找元素，比如：

#logo

∙.class:

通过class名称查找元素，比如：

.masthead

∙[attribute]:

利用属性查找元素，比如：

[href]

∙[^attr]:

利用属性名前缀来查找元素，比如：

可以用[^data-]来查找带有HTML5Dataset属性的元素

∙[attr=value]:

利用属性值来查找元素，比如：

[width=500]

∙[attr^=value],[attr$=value],[attr*=value]:

利用匹配属性值开头、结尾或包含属性值来查找元素，比如：

[href*=/path/]

∙[attr~=regex]:

利用属性值匹配正则表达式来查找元素，比如：

img[src~=（?

i）\.（png|jpe?

g）]

∙*:

这个符号将匹配所有元素

Selector选择器组合使用

∙el#id:

元素+ID，比如：

div#logo

∙el.class:

元素+class，比如：

div.masthead

∙el[attr]:

元素+class，比如：

a[href]

∙任意组合，比如：

a[href].highlight

∙ancestorchild:

查找某个元素下子元素，比如：

可以用.bodyp查找在"body"元素下的所有p元素

∙parent>child:

查找某个父元素下的直接子元素，比如：

可以用div.content>p查找p元素，也可以用body>*查找body标签下所有直接子元素

∙siblingA+siblingB:

查找在A元素之前第一个同级元素B，比如：

div.head+div

∙siblingA~siblingX:

查找A元素之前的同级X元素，比如：

h1~p

∙el,el,el:

多个选择器组合，查找匹配任一选择器的唯一元素，例如：

div.masthead,div.logo

伪选择器selectors

∙:

lt（n）:

查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：

td:

lt（3）表示小于三列的元素

∙:

gt（n）:

查找哪些元素的同级索引值大于n，比如：

divp:

（2）表示哪些div中有包含2个以上的p元素

∙:

eq（n）:

查找哪些元素的同级索引值与n相等，比如：

forminput:

（1）表示包含一个input标签的Form元素

∙:

has（seletor）:

查找匹配选择器包含元素的元素，比如：

div:

has（p）表示哪些div包含了p元素

∙:

not（selector）:

查找与选择器不匹配的元素，比如：

div:

not（.logo）表示不包含class=logo元素的所有div列表

∙:

contains（text）:

查找包含给定文本的元素，搜索不区分大不写，比如：

contains（jsoup）

∙:

containsOwn（text）:

查找直接包含给定文本的元素

∙:

matches（regex）:

查找哪些元素的文本匹配指定的正则表达式，比如：

div:

matches（（?

i）login）

∙:

matchesOwn（regex）:

查找自身包含文本匹配指定正则表达式的元素

∙注意：

上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等

可以查看SelectorAPI参考来了解更详细的内容

8.从元素抽取属性，文本和HTML

问题

在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。

方法

∙要取得一个属性的值，可以使用Node.attr（Stringkey）方法

∙对于一个元素中的文本，可以使用Element.text（）方法

∙对于要取得元素或属性中的HTML内容，可以使用Element.html（）,或Node.outerHtml（）方法

示例：

Stringhtml="

An";

Documentdoc=Jsoup.parse（html）;//解析HTML字符串返回一个Document实现

Elementlink=doc.select（"a"）.first（）;//查找第一个a元素

Stringtext=doc.body（）.text（）;//"Anexamplelink"//取得字符串中的文本

StringlinkHref=link.attr（"href"）;//"

StringlinkText=link.text（）;//"example""//取得链接地址中的文本

StringlinkOuterH=link.outerHtml（）;

//"example"

StringlinkInnerH=link.html（）;//"example"//取得链接内的html内容

说明

上述方法是元素数据访问的核心办法。

此外还其它一些方法可以使用：

∙Element.id（）

∙Element.tagName（）

∙Element.className（）andElement.hasClass（StringclassName）

这些访问器方法都有相应的setter方法来更改数据.

参见

∙Element和Elements集合类的参考文档

∙URLs处理

∙使用CSS选择器语法来查找元素

9.处理URLs

问题

你有一个包含相对URLs路径的HTML文档，需要将这些相对路径转换成绝对路径的URLs。

方法

1.在你解析文档时确保有指定baseURI，然后

2.使用abs:

属性前缀来取得包含baseURI的绝对路径。

代码如下：

Documentdoc=Jsoup.connect（"http:

//www.open-"）.get（）;

Elementlink=doc.select（"a"）.first（）;

StringrelHref=link.attr（"href"）;//=="/"

StringabsHref=link.attr（"abs:

href"）;//"http:

//www.open-

说明

在HTML元素中，URLs经常写成相对于文档位置的相对路径：

....当你使用Node.attr（Stringkey）方法来取得a元素的href属性时，它将直接返回在HTML源码中指定定的值。

假如你需要取得一个绝对路径，需要在属性名前加abs:

前缀。

这样就可以返回包含根路径的URL地址attr（"abs:

href"）

因此，在解析HTML文档时，定义baseURI非常重要。

如果你不想使用abs:

前缀，还有一个方法能够实现同样的功能Node.absUrl（Stringkey）。

10.示例程序:

获取所有链接

这个示例程序将展示如何从一个URL获得一个页面。

然后提取页面中的所有链接、图片和其它辅助内容。

并检查URLs和文本信息。

运行下面程序需要指定一个URLs作为参数

packageorg.jsoup.examples;

importorg.jsoup.Jsoup;

importorg.jsoup.helper.Validate;

importorg.jsoup.nodes.Document;

importorg.jsoup.nodes.Element;

importorg.jsoup.select.Elements;

importjava.io.IOException;

/**

*ExampleprogramtolistlinksfromaURL.

publicclassListLinks{

publicstaticvoidmain（String[]args）throwsIOException{

Validate.isTrue（args.length==1,"usage:

supplyurltofetch"）;

Stringurl=args[0];

print（"Fetching%s...",url）;

Documentdoc=Jsoup.connect（url）.get（）;

Elementslinks=doc.select（"a[href]"）;

Elementsmedia=doc.select（"[src]"）;

Elementsimports=doc.select（"link[href]"）;

print（"\nMedia:

（%d）",media.size（））;

for（Elementsrc:

media）{

if（src.tagName（）.equals（"img"））

print（"*%s:

<%s>%sx%s（%s）",

src.tagName（）,src.attr（"abs:

src"）,src.attr（"width"）,src.attr（"height"）,

trim（src.attr（"alt"）,20））;

else

print（"*%s:

<%s>",src.tagName（）,src.attr（"abs:

src"））;

}

print（"\nImports:

（%d）",imports.size（））;

for（Elementlink:

imports）{

print（"*%s<%s>（%s）",link.tagName（）,link.attr（"abs:

href"）,link.attr（"rel"））;

}

print（"\nLinks:

（%d）",links.size（））;

for（Elementlink:

links）{

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: jsoup 中文帮助文档综述

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：jsoup中文帮助文档综述.docx
链接地址：https://www.bingdoc.com/p-14089130.html

jsoup中文帮助文档综述.docx

热门标签