什么是jsoup

jsoup 官网
jsoup jar
jsoup学习

1 简介

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

2 jsoup的主要功能

  1. 从一个URL,文件或字符串中解析HTML
  2. 使用DOM或CSS选择器来查找、取出数据
  3. 可操作HTML元素、属性、文本

注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。

3 示例

示例1 获取维基百科首页新闻

public void getWikiNews() throws IOException {
    Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
    log.info(doc.title());
    Elements newsHeadlines = doc.select("#mp-itn b a");
    for (Element headline : newsHeadlines) {
        log.info("抓取到页面信息:{}---{}", headline.attr("title"), headline.absUrl("href"));
    }
}

示例2 获取微博热搜前50

public void getTodayTop() throws IOException {
    Document doc = Jsoup.connect("https://tophub.today/").get();
    log.info(doc.title());
    Element weiboTopElement = doc.getElementById("node-1");
    Elements tops = weiboTopElement.select("a");
    for (Element top : tops) {
        log.info("{}--{}", top.text(), top.absUrl("href"));
    }
}
posted @   xgbyl  阅读(93)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!
点击右上角即可分享
微信分享提示