2013年12月19日

HtmlParser的使用-爬虫学习(三)

摘要: 关于这个HtmlParser的学习资料,网上真的很匮乏,这个好用的东西不要浪费啊,所以我在这里隆重的介绍一下。 HtmlParser是一个用来解析HTML文件的Java包,主要用于转换盒抽取两个方面。 利用HtmlParser,你可以实现下面的内容的抽取: a.文本抽取 b.链接抽取 c.资源抽取。可以搜集到图像和声音文件等资源 d.链接检查。保证链接是有用的 e.站点检查,可以查看页面不同版本之间的差异 利用HtmlParser,你可以利用它的转换功能,主要体现在几个方面: a.URL重写。能够修正页面中的错误链接 b.广告清楚。清除页面中的广告内容和指向广告的链接 ... 阅读全文

posted @ 2013-12-19 15:56 进击的Ray_xujianguo 阅读(2368) 评论(7) 推荐(4) 编辑

导航