Loading

随笔分类 -  爬虫

摘要:1、爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从 阅读全文
posted @ 2017-04-21 18:57 王树燚 阅读(9757) 评论(1) 推荐(0) 编辑
摘要:1,如何模拟登陆2,验证码识别3,分布式爬取网页4,数据存储5,网页更新6,基于关键字的微博爬取 然后上面的每一个问题其实研究起来都是很有意思的。虽然上面的每一个问题都有很多人解决,但是我感觉都不是很漂亮,下面一点一点来分析:第一个,模拟登陆。我估计啊,每一个爬微博数据的人都会花费50%的时间在这, 阅读全文
posted @ 2017-04-20 11:48 王树燚 阅读(443) 评论(0) 推荐(0) 编辑
摘要:前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应 阅读全文
posted @ 2017-04-20 10:28 王树燚 阅读(3843) 评论(0) 推荐(1) 编辑
摘要:爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。接着开始接触传说中给人用的requests 阅读全文
posted @ 2017-04-20 09:47 王树燚 阅读(478) 评论(0) 推荐(0) 编辑
摘要:这个要看你想抓取的网页数量是哪种规模的。如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的。。。。。。嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下面是我的一个想法,欢迎大家讨论。布隆过滤器,大概几十行代码就可以实现。可以节省很多内存(我自己写了一 阅读全文
posted @ 2017-04-20 09:15 王树燚 阅读(4999) 评论(0) 推荐(0) 编辑
摘要:广度优先算法介绍 整个的广度优先爬虫过程就是从一系列的种子节点开始,把这些网页中的"子节点"(也就是超链接)提取出来,放入队列中依次进行抓取。被处理过的链接需要放 入一张表(通常称为Visited表)中。每次新处理一个链接之前,需要查看这个链接是否已经存在于Visited表中。如果存在,证明链接已经 阅读全文
posted @ 2017-04-19 17:20 王树燚 阅读(14132) 评论(1) 推荐(2) 编辑

点击右上角即可分享
微信分享提示
主题色彩