小爬虫系列 - 随笔分类 - 一线码农

玩玩小爬虫——抓取时的几个小细节

摘要：这一篇我们聊聊在页面抓取时应该注意到的几个问题。一：网页更新我们知道，一般网页中的信息是不断翻新的，这也要求我们定期的去抓这些新信息，但是这个“定期”该怎么理解，也就是多长时间需要抓一次该页面，其实这个定期也就是页面缓存时间，在页面的缓存时间内我们再次抓取该网页是没有必要的，反而给人家服务器造成压力。就比如说我要抓取博客园首页，首先清空页面缓存，从Last-Modified到Expires，我们可以看到，博客园的缓存时间是2分钟，而且我还能看到当前的服务器时间Date，如果我再次刷新页面的话，这里的Date将会变成下图中If-Modified-Since,然后发送给服务器，判断浏览器... 阅读全文

posted @ 2012-11-08 01:23 一线码农阅读(14355) 评论(19) 推荐(12) 编辑

玩玩小爬虫——抓取动态页面

摘要：在ajax横行的年代，很多网页的内容都是动态加载的，而我们的小爬虫抓取的仅仅是web服务器返回给我们的html，这其中就跳过了js加载的部分，也就是说爬虫抓取的网页是残缺的，不完整的，下面可以看下博客园首页从首页加载中我们看到，在页面呈现后，还会有5个ajax异步请求，在默认的情况下，爬虫是抓取不到这些ajax生成的内容的，这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面，目前内核引擎三足鼎立。Trident：也就是IE内核，WebBrowser就是基于该内核，但是加载性内比较差。Gecko： FF的内核，性能相对Trident较好。WebKit: Safari和Chrome... 阅读全文

posted @ 2012-11-06 00:00 一线码农阅读(36667) 评论(23) 推荐(5) 编辑

玩玩小爬虫——试搭小架构

摘要：第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机制，对于整个爬虫架构来说，构建好爬虫队列相当重要。先上一幅我自己构思的架构图，不是很完善，算是一个雏形吧。一：TODO队列和Visited集合在众多的nosql数据库中，mongodb还是很不错的，这里也就选择它了，做集群，做分片轻而易举。二：中央处理器群架，斗殴都是有带头的，那中央处理器就可以干这样的事情，它的任务很简单，第一：启动时，根据我们定义好的规则将种子页面分发到各个执行服务器。第... 阅读全文

posted @ 2012-11-04 18:51 一线码农阅读(9900) 评论(12) 推荐(12) 编辑

玩玩小爬虫——入门

摘要：前段时间做一个产品，盈利方式也就是卖数据给用户，用wpf包装一下，当然数据提供方是由公司定向爬虫采集的，虽然在实际工作中没有接触这一块，不过私下可以玩一玩，研究研究。既然要抓取网页的内容，肯定我们会有一个startUrl，通过这个startUrl就可以用广度优先的方式遍历整个站点，就如我们学习数据结构中图的遍历一样。既然有“请求网页”和“解析网页”两部分，在代码实现上，我们得需要有两个集合，分别是Todo和Visited集合，为了简单起见，我们从单机版爬虫说起，说起爬虫，就必然逃避不了海量数据，既然是海量数据，那么性能问题不容忽视，在Todo和Visited集合的甄别上，我们选择用Qu... 阅读全文

posted @ 2012-11-02 22:44 一线码农阅读(11980) 评论(20) 推荐(12) 编辑

随笔分类 - 小爬虫系列

公告