jsoup解析HTML及简单实例
jsoup 中文参考文献 http://www.open-open.com/jsoup/
本文将利用jsoup,简单实现网络抓取的功能,并给出一个小实例,该实例效果为:获取作者本人在博客园写的所有文章的标题。
一:建立一个java工程,导入jsoup包,junit(导入junit包,hamcrest包)。若不知junit为何要导入两个包,请点击链接‘junit的使用’。
二:建立一个demo.java类,实现代码如下:
import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.junit.Test; public class demo { @Test public void reasUrl() throws IOException { String url = "http://www.cnblogs.com/sky-"; Connection conn = Jsoup.connect(url); // 建立与url中页面的连接 Document doc = conn.get(); // 解析页面 Elements links = doc.select("a[href]"); // 获取页面中所有的超链接 int i = 1; for (Element link : links) { if ("阅读全文".equals(link.text())) { // 获取页面中每篇文章‘阅读全文’的链接,进入文章 Document doc2 = Jsoup.connect(link.attr("abs:href")).get(); // 解析每篇文章的页面 System.out.println("第" + i + "篇:" + doc2.title()); // 把该文章的标题打印出来 i++; } } } }
三:运行项目即可得到作者本人在博客园写的所有文章的标题
第1篇:jsoup解析HTML及简单实例 - sky_烁 - 博客园 第2篇:面向接口编程及适配器模式 - sky_烁 - 博客园 第3篇:数据库 SQL语句小结 - sky_烁 - 博客园