2013年12月31日

宽度优先爬虫-爬虫学习(四)

摘要: 我们用爬虫去遍历互联网的时候,可以将互联网看作是一个有向图,链接就是图中的有向边,所以我们可以利用图的遍历方法去遍历这个巨大的互联网,图的遍历有宽度优先遍历和深度优先遍历。但是深度优先遍历可能会在遍历的时候遍历过深,导致浪费资源,所以我们这里采用宽度优先遍历。 下面使用Java实现一个简单的宽度优先爬虫的例子,其中用到来HttpClient和HtmlParser两个开源的工具包。/** * @introduction 队列 保留将要访问的URL * @author Guo */public class Queue { /** * @introduction 底层使用Lin... 阅读全文

posted @ 2013-12-31 22:46 进击的Ray_xujianguo 阅读(1485) 评论(3) 推荐(0) 编辑

导航