SpringBoot 解析 Html
使用JSOUP来解析Html网页
从网上搜了搜看了下 大部分的排版都不是特别好!!! 所以我从新写一个。
jsoup:Java HTML 解析器
jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。
可以从 URL、文件或字符串中抓取和解析HTML
使用 DOM 遍历或 CSS 选择器查找和提取数据
操作HTML 元素、属性和文本
根据安全列表清理用户提交的内容,以防止XSS攻击
输出整洁的 HTML
jsoup 旨在处理各种常见的 HTML;从原始和验证到无效标签汤;jsoup 将创建一个合理的解析树。
下面是基本的使用方法
要实现的目标
代码实现
1、引入pom依赖
`
<!--Jsoup解析html-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
`
2、编写测试类
@Test
public void ReferenceCount() throws IOException {
// 创建对象 获取网页信息
Document doc = Jsoup.connect("https://jsoup.org/").get();
log.info(doc.title());
// 使用选择器语法查找元素
Elements newsHeadlines = doc.select("a.badge");
for (Element headline : newsHeadlines) {
// 获取元素的链接地址
String href = headline.absUrl("href");
// 打印
log.info(href);
}
}
3、执行
2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://whatwg.org/html 正常输入目标链接
2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://www.opensource.org/ 正常输入目标链接
更多的元素选择操作可以看JSOUP方法的博客
本文作者:傲浮
本文链接:https://www.cnblogs.com/offerwx/p/16623443.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步