2013 年 12月 31 日随笔档案 - 进击的Ray_xujianguo

2013年12月31日

宽度优先爬虫-爬虫学习（四）

摘要：我们用爬虫去遍历互联网的时候，可以将互联网看作是一个有向图，链接就是图中的有向边，所以我们可以利用图的遍历方法去遍历这个巨大的互联网，图的遍历有宽度优先遍历和深度优先遍历。但是深度优先遍历可能会在遍历的时候遍历过深，导致浪费资源，所以我们这里采用宽度优先遍历。下面使用Java实现一个简单的宽度优先爬虫的例子，其中用到来HttpClient和HtmlParser两个开源的工具包。/** * @introduction 队列保留将要访问的URL * @author Guo */public class Queue { /** * @introduction 底层使用Lin... 阅读全文

posted @ 2013-12-31 22:46 进击的Ray_xujianguo 阅读(1485) 评论(3) 推荐(0) 编辑

进击的Ray_xujianguo

宽度优先爬虫-爬虫学习（四）

导航

公告