2014 年 8月 13 日随笔档案 - 王天泽博客

2014年8月13日

摘要：学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。这些脚本有一个共性，都是和we... 阅读全文

posted @ 2014-08-13 11:32 王天泽博客阅读(84) 评论(0) 推荐(0) 编辑

如何设计爬虫架构

摘要：摘要: 设计爬虫架构一个设计良好的爬虫架构必须满足如下需求。(1)分布式：爬虫应该能够在多台机器上分布执行。(2)可伸缩性：爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度。(3)性能和有效性：爬虫系统必须有效地 ...设计爬虫架构一个设计良好的爬虫架构必须满足如下需求。(1)分布式：爬虫应该... 阅读全文

posted @ 2014-08-13 11:30 王天泽博客阅读(1600) 评论(0) 推荐(0) 编辑

Scrapy轻松定制网络爬虫

摘要：网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Intern... 阅读全文

posted @ 2014-08-13 11:28 王天泽博客阅读(131) 评论(0) 推荐(0) 编辑

王天泽

-------点点滴滴的积累

公告