随笔 - 65 文章 - 0 评论 - 21 阅读 - 32万

【HTML Parser】解析HTML：基于第三方库Jsoup

JSoup官方地址：http://jsoup.org

Apache HttpComponents官方地址：http://hc.apache.org/index.html

1、抓取HTML内容

这里我们使用HttpClient库，根据URL请求远端的HTML

复制代码

public static String getHTMLFromURL(String url) {
    String html = null;
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet httpGet = new HttpGet(url);
    try {
        HttpResponse httpResponse = httpClient.execute(httpGet);
        int resStatu = httpResponse.getStatusLine().getStatusCode();
        if (resStatu == HttpStatus.SC_OK) {
            HttpEntity entity = httpResponse.getEntity();
            if (entity != null) {
                html = EntityUtils.toString(entity);
            }
        }
    } catch (Exception e) {
        e.printStackTrace();
    } finally {
        httpClient.getConnectionManager().shutdown();
    }
    return html;
}

复制代码

2、解析HTML

示例，打印百度的标题

> 解析，获得Document对象

Document doc = Jsoup.parse(html);

> 使用 CSS 或类似 JQuery 的 Selector 选择元素

Elements elements = doc.select("title");

> 打印元素的文本内容

System.out.println(ele.text());

String html = WebCrawler.getHTMLFromURL("http://www.baidu.com");
if (html != null) {
    Document doc = Jsoup.parse(html);
    Elements elements = doc.select("title");
    for (Element element : linksElements) {
        System.out.println(element.text());
    }
}

运行结果：

posted on 2013-03-20 11:38 Anthony Li 阅读(1043) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

昵称： Anthony Li
园龄： 13年4个月
粉丝： 83
关注： 11

<

2013年3月

>

日

一

二

三

四

五

六

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:java.lang.RuntimeException: startPreview failed
API10中使用SurfaceHolder.setType(SurfaceHolder.SURFACE_TYPE_PUSH_BUFFERS)，而且要放到addCallback前面才起作用，已整理文章...
--Lison Liou
2. Re:【iOS Web App】嵌入 Cordova WebView 到 iOS（XCode 4.6，Cordova 2.3.0+）
有demo吗
--jj89757hhb
3. Re:【Web Service】Apache Tuscany发布SOAP
楼主，请问下，我按照你说的，把demo建起来了，服务也能启动，但是按照:8080/HelloWorldServer/helloworld/IHelloWorldService?wsdl这个地址测试的时...
--程序员初级学习者
4. Re:【Lua】撸啊！第一弹：Lua开发环境搭建（Mac OS X）
curl -O 这条命令没有起作用，不知道是不是没有这个源了。。刚才试了一下，这个命令可行：curl -s "" | sudo python - install rudix...
--追月之羽
5. Re:【iOS XMPP】使用XMPPFramewok（四）：收发消息
消息发出去后如何判断消息是否成功发送呢
--刘可如

博客园博客已停止更新，博客地址：dyinigbleed.com