爬虫 - 随笔分类 - 王树燚

网络爬虫技术

摘要：1、爬虫技术概述网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。传统爬虫从阅读全文

posted @ 2017-04-21 18:57 王树燚阅读(9757) 评论(1) 推荐(0) 编辑

爬虫具体问题

摘要：1，如何模拟登陆2，验证码识别3，分布式爬取网页4，数据存储5，网页更新6，基于关键字的微博爬取然后上面的每一个问题其实研究起来都是很有意思的。虽然上面的每一个问题都有很多人解决，但是我感觉都不是很漂亮，下面一点一点来分析：第一个，模拟登陆。我估计啊，每一个爬微博数据的人都会花费50%的时间在这，阅读全文

posted @ 2017-04-20 11:48 王树燚阅读(443) 评论(0) 推荐(0) 编辑

分布式爬虫调度策略

摘要：前言：爬虫是偏IO型的任务，分布式爬虫的实现难度比分布式计算和分布式存储简单得多。个人以为分布式爬虫需要考虑的点主要有以下几个：爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能 Python分布式爬虫比较常用的应阅读全文

posted @ 2017-04-20 10:28 王树燚阅读(3843) 评论(0) 推荐(1) 编辑

爬虫进阶

摘要：爬虫写得多了，就感到有些乏。这个乏，指的并不是乏味，而是更广一些的，浑身使不上劲的SIW 乏。从务实的角度看，现有的答案已经回答地非常全面，无可指摘了。相信大多数人的爬虫入门都和我类似，先从urllib2入手，写一个最简陋的get,面对一大堆源码无所适从。接着开始接触传说中给人用的requests 阅读全文

posted @ 2017-04-20 09:47 王树燚阅读(478) 评论(0) 推荐(0) 编辑

爬虫URL去重

摘要：这个要看你想抓取的网页数量是哪种规模的。如果是千万以下用hash表， set，布隆过滤器基本可以解决，如果是海量的。。。。。。嗯我也没做过海量的，不过hash表之类的就别想了，内存根本不够，分割线下面是我的一个想法，欢迎大家讨论。布隆过滤器，大概几十行代码就可以实现。可以节省很多内存（我自己写了一阅读全文

posted @ 2017-04-20 09:15 王树燚阅读(4999) 评论(0) 推荐(0) 编辑

爬虫的广度优先和深度优先算法

摘要：广度优先算法介绍整个的广度优先爬虫过程就是从一系列的种子节点开始，把这些网页中的"子节点"(也就是超链接)提取出来，放入队列中依次进行抓取。被处理过的链接需要放入一张表(通常称为Visited表)中。每次新处理一个链接之前，需要查看这个链接是否已经存在于Visited表中。如果存在，证明链接已经阅读全文

posted @ 2017-04-19 17:20 王树燚阅读(14132) 评论(1) 推荐(2) 编辑

Loading

王树燚

随笔分类 - 爬虫

公告