Welcome to ZhuifengC|

傲浮

园龄:4年8个月粉丝:0关注:0

SpringBoot 解析 Html

使用JSOUP来解析Html网页

从网上搜了搜看了下 大部分的排版都不是特别好!!! 所以我从新写一个。

点击进入JSOUP的官网

jsoup:Java HTML 解析器

jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。

可以从 URL、文件或字符串中抓取和解析HTML
使用 DOM 遍历或 CSS 选择器查找和提取数据
操作HTML 元素、属性和文本
根据安全列表清理用户提交的内容,以防止XSS攻击
输出整洁的 HTML
jsoup 旨在处理各种常见的 HTML;从原始和验证到无效标签汤;jsoup 将创建一个合理的解析树。

下面是基本的使用方法

要实现的目标

image

代码实现

1、引入pom依赖
`

<!--Jsoup解析html-->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.12.1</version>
    </dependency>

`

2、编写测试类

@Test
    public void ReferenceCount() throws IOException {
        // 创建对象 获取网页信息
        Document doc = Jsoup.connect("https://jsoup.org/").get();
        log.info(doc.title());
        // 使用选择器语法查找元素
        Elements newsHeadlines = doc.select("a.badge");
        for (Element headline : newsHeadlines) {
            // 获取元素的链接地址
            String href = headline.absUrl("href");
            // 打印
            log.info(href);
        }
    }

3、执行

2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://whatwg.org/html 正常输入目标链接
2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://www.opensource.org/ 正常输入目标链接

更多的元素选择操作可以看JSOUP方法的博客

本文作者:傲浮

本文链接:https://www.cnblogs.com/offerwx/p/16623443.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   傲浮  阅读(762)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起