Jsoup 配置和使用

基于Java的html解析器Jsoup的简单介绍

Jsoup 下载

Jsoup是一个基于Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。

使用Maven下载：
(Maven使用可以参照以往的博客)


		<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
		<dependency>
		    <groupId>org.jsoup</groupId>
		    <artifactId>jsoup</artifactId>
		    <version>1.9.2</version>
		</dependency>

官网Jsoup

Jsoup 使用

特点：

没有关闭的标签 (比如：
Lorem
Ipsum parses to
Lorem

Ipsum
)
隐式标签 (比如. 它可以自动将 Table data包装成
?)
创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）

1 Jsoup.parse(String html)和Jsoup.parse(String html, String baseUri); // 解析一个HTMl字符串
2 Jsoup.parseBodyFragment(String html); // 解析一个body片断
3 Jsoup.connect(String url); //从一个URL解析一个Document 可以通过选择器来查找元素
4 Jsoup.parse(File in, String charsetName, String baseUri); //从本地加载一个文档

解析一个HTMl字符串


		 String html = "<html><head><meta charset='UTF-8'><title>three.js</title></head><body>"+ 
                       "<script type='text/javascript' src='js/Three/three.js'></script>"+  
                       "<script></script></body></html>"; 
		 Document doc = Jsoup.parse(html); 
		 System.out.println(doc);

output:


		<html>
		 <head>
		  <meta charset="UTF-8" />
		  <title>three.js</title>
		 </head>
		 <body>
		  <script type="text/javascript" src="js/Three/three.js"></script>
		  <script></script>
		 </body>
		</html>

解析一个URL，这里我们解析的是Google的首页的登陆按钮(按钮id:gb_70)然后回去按钮的文本。


		 Document google = Jsoup.connect("https://www.google.com.hk/").get(); 
		 
		 Element login = google.getElementById("gb_70");
		 
		 System.out.println(login.text());

output:登入

posted @ 2018-09-17 12:01 可爱的黑精灵阅读(1206) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

可爱的黑精灵

Jsoup 配置和使用

Jsoup 下载

Jsoup 使用

公告