Jsoup是一款java语言编写的Html解析器,具有非常简单的api,能够使用类似css的选择语法,从Html文档中抽取出各种标签的内容、属性等值,是处理Html网页的一个神器。官方网站项目源码(github)

1.maven构建

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.8.3</version>
</dependency>

2.Document创建

Jsoup在处理HTML的时候首先将HTML构建为一个Document(整个HTML文档),一个Document包含多个Element(HTML标签),每个Element包含的主要属性有若干个attribute和对应的值以及包含的文本等。举个栗子:

<html>
<div>
<h1 id='title'>虽然这里只需要随便写点东西,但是我还是不知道该写点啥</h1>
<span class='content'>
如果你不笨的话应该知道这里是正文内容,虽然我还是不知道该在这里写点啥!
</span>
</div>
</html>

如上内容,构造Document:

String html='……';
Document document=Jsoup.parse(html);
//document为HTML包裹的整个文档

如果需要从上面的HTML文档中解析出h1部分内容,只需要

Element element=document.getElementById("title");
//这一步得到的为h1标签部分
String text=element.text();
//得到文本内容

results matching ""

    No results matching ""