2012 年 11月 2 日随笔档案 - 一线码农

2012年11月2日

摘要：前段时间做一个产品，盈利方式也就是卖数据给用户，用wpf包装一下，当然数据提供方是由公司定向爬虫采集的，虽然在实际工作中没有接触这一块，不过私下可以玩一玩，研究研究。既然要抓取网页的内容，肯定我们会有一个startUrl，通过这个startUrl就可以用广度优先的方式遍历整个站点，就如我们学习数据结构中图的遍历一样。既然有“请求网页”和“解析网页”两部分，在代码实现上，我们得需要有两个集合，分别是Todo和Visited集合，为了简单起见，我们从单机版爬虫说起，说起爬虫，就必然逃避不了海量数据，既然是海量数据，那么性能问题不容忽视，在Todo和Visited集合的甄别上，我们选择用Qu... 阅读全文

posted @ 2012-11-02 22:44 一线码农阅读(11977) 评论(20) 推荐(12) 编辑

公告