什么是jsoup
1 简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
2 jsoup的主要功能
- 从一个URL,文件或字符串中解析HTML
- 使用DOM或CSS选择器来查找、取出数据
- 可操作HTML元素、属性、文本
注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。
3 示例
示例1 获取维基百科首页新闻
public void getWikiNews() throws IOException {
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log.info(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log.info("抓取到页面信息:{}---{}", headline.attr("title"), headline.absUrl("href"));
}
}
示例2 获取微博热搜前50
public void getTodayTop() throws IOException {
Document doc = Jsoup.connect("https://tophub.today/").get();
log.info(doc.title());
Element weiboTopElement = doc.getElementById("node-1");
Elements tops = weiboTopElement.select("a");
for (Element top : tops) {
log.info("{}--{}", top.text(), top.absUrl("href"));
}
}
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!