随笔- 282 文章- 7 评论- 36 阅读- 89万

Jsoup -- 网络爬虫解析器

需要下载jsoup-1.8.1.jar包

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

网页获取和解析速度飞快，推荐使用。
主要功能如下：
1. 从一个URL，文件或字符串中解析HTML；
2. 使用DOM或CSS选择器来查找、取出数据；
3. 可操作HTML元素、属性、文本；

范例代码如下：

Java代码

package cn.ysh.studio.crawler.jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
/**
* 基于Jsoup抓取网页内容
* @author www.yshjava.cn
*/
public class JsoupTest {
public static void main(String[] args) throws IOException {
//目标页面
String url = "http://www.yshjava.cn";
//使用Jsoup连接目标页面,并执行请求,获取服务器响应内容
String html = Jsoup.connect(url).execute().body();
//打印页面内容
System.out.println(html);
}
}

自我总结：

概述

Jsoup 是一个用于处理 HTML 的 Java 库，它可以从 URL、文件或字符串中提取和操作数据，特别适合用于网络爬虫中解析 HTML 页面。Jsoup 提供了类似于 jQuery 的语法，方便开发者选择和操作 HTML 元素。

核心功能

解析 HTML：可以将 HTML 字符串、文件或从 URL 获取的 HTML 内容解析为 Document 对象。
选择元素：支持使用 CSS 选择器或 XPath 表达式来选择 HTML 元素。
操作元素：可以修改元素的属性、文本内容等。

示例代码及解释

1. 添加依赖

如果你使用 Maven 项目，在 pom.xml 中添加 Jsoup 依赖：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.3</version>
</dependency>

2. 从 URL 解析 HTML 页面

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            // 从 URL 获取 HTML 内容并解析为 Document 对象
            Document doc = Jsoup.connect("https://news.baidu.com/").get();

            // 使用 CSS 选择器选择所有新闻标题元素
            Elements newsTitles = doc.select("div#pane-news a.title");

            // 遍历新闻标题元素并打印标题文本
            for (Element title : newsTitles) {
                System.out.println(title.text());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

3. 代码解释

连接到 URL 并获取 HTML 内容：

Document doc = Jsoup.connect("https://news.baidu.com/").get();

使用 Jsoup.connect(url).get() 方法连接到指定的 URL，并将返回的 HTML 内容解析为 Document 对象。

使用 CSS 选择器选择元素：

Elements newsTitles = doc.select("div#pane-news a.title");

使用 select() 方法结合 CSS 选择器 div#pane-news a.title 选择所有符合条件的新闻标题元素。Elements 是一个元素集合，包含了所有匹配的元素。

遍历元素并获取文本内容：

for (Element title : newsTitles) {
    System.out.println(title.text());
}

使用 text() 方法获取元素的文本内容，并打印出来。

4. 其他常用操作

获取元素属性

Element link = doc.select("a").first();
String href = link.attr("href");
System.out.println("链接地址: " + href);

修改元素内容

Element paragraph = doc.select("p").first();
paragraph.text("新的段落内容");

总结

Jsoup 是一个强大且易用的 HTML 解析库，通过简单的 API 可以方便地解析 HTML 页面、选择元素和操作元素。在网络爬虫开发中，使用 Jsoup 可以快速提取所需的数据，提高开发效率。

posted @ 2017-03-01 15:58 皇问天阅读(1363) 评论(3) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Hessian知识学习总结（二）——Hessian的helloworld

· 第一阶段：Java核心基础巩固

· HTML解析器Jsoup

· Jsoup详解

· 什么是jsoup

公告

昵称：皇问天
园龄： 8年
粉丝： 71
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

文章分类

医学(3)

皇问天

Jsoup -- 网络爬虫解析器

概述

核心功能

示例代码及解释

1. 添加依赖

2. 从 URL 解析 HTML 页面

3. 代码解释

4. 其他常用操作

获取元素属性

修改元素内容

总结

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论