2012年11月3日

(转)玩玩小爬虫——入门

摘要: 原文地址:http://www.cnblogs.com/huangxincheng/archive/2012/11/02/2751977.html 前段时间做一个产品,盈利方式也就是卖数据给用户,用wpf包装一下,当然数据提供方是由公司定向爬虫采集的,虽然在实际工作中没有接触这一块,不过私下可以玩一玩,研究研究。 既然要抓取网页的内容,肯定我们会有一个startUrl,通过这个startUrl就可以用广度优先的方式遍历整个站点,就如我们学习数据结构中图的遍历一样。既然有“请求网页”和“解析网页”两部分,在代码实现上,我们得需要有两个集合,分别是Todo和Visited集合,为了简单起见,... 阅读全文

posted @ 2012-11-03 17:26 黑子范 阅读(223) 评论(0) 推荐(0) 编辑

导航