摘要: Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。当前版本为1.7.1。jsoup的主要功能如下:1. 从一个URL,文件或字符串中解析HTML;2. 使用DOM或CSS选择器来查找、取出数据;3. 可操作HTML元素、属性、文本;Jsoup官方网站:http://jsoup.org/.可以通过其给出的学习资料http://jsoup.org/cookbook/和它的API进行学习http://jsoup.org/apidocs/.经过翻译的中文资料不妨参 阅读全文
posted @ 2013-01-06 23:07 烤德 阅读(4040) 评论(0) 推荐(0) 编辑
摘要: 搜索引擎无非是提供对Web内容的方便检索,以至于能够便捷的获取浏览到相关的页面。因此,在通过Heritrix等网络蜘蛛获取Web资源以后,首要的任务就是抽取Web页面的内容。基于java的页面抽取工具有很多,例如,抽取HTML页面的有HtmlParser、Jsoup等,至于Word、Excel等文件的内容,也有相应的工具。关于HtmlParser、Jsoup等页面内容抽取可以参考相关文献.如《HTML抽取工具Jsoup》。关于Word等文件,建议学习使用一款叫POI的开源工具来实现:Apache POI是一个开源的Java读写Excel、WORD等微软OLE2组件文档的项目。目前POI已经有了 阅读全文
posted @ 2013-01-06 23:06 烤德 阅读(1573) 评论(8) 推荐(2) 编辑