【jsoup】html解析

Java HTML Parser

字符串解析为xml文档,作用输入是什么样子的片断,输出业务什么样子的

Document doc = Jsoup.parse(html, "", Parser.xmlParser());
System.out.println(doc.html());

片断<div>hello</div>

复制代码
Document doc = Jsoup.parse(html, "", Parser.xmlParser());结果
<div>
 hello
</div>

Document doc = Jsoup.parse(html);结果
<html>
 <head></head>
 <body>
  <div>
   hello
  </div>
 </body>
</html>
复制代码

 

字符串解析为文档

String html = "<html><head><title>First html parse</title></head><body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
System.out.println(doc.html());

 

字符串解析为片断

String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();
System.out.println(body.html());

 

从url加载文档

复制代码
Document doc = Jsoup.connect("http://www.lianhu.gov.cn/").get();
String title = doc.title();
System.out.println(title);
构建特殊请求
Document doc = Jsoup.connect("http://www.lianhu.gov.cn/")
        .data("query", "Java")
        .userAgent("Mozilla")
        .cookie("auth", "token")
        .timeout(3000)
        .post();
复制代码

 

从文件加载文档

File input = new File("D:/deya/vhost/zizhou/index.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
System.out.println(doc.html());

 

posted @   翠微  阅读(148)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
点击右上角即可分享
微信分享提示