摘要:
上一个星期,一篇名为《.net估计要写在你手里了》几乎点燃了整个园子,有人群情激愤了,有人点赞的,有人上去打算喷博主个体无完肤的,总之,这篇博客很成功的引起一些.net 从业者的思考,也包括我。 写那篇博客的人是一名从业6年的.net coder,之所以定义为coder,我在回顾了博主6年的博客园... 阅读全文
摘要:
转载请注明出处:http://www.cnblogs.com/codefish/p/4993809.html最近在群里频繁的被问到ajax和js的处理问题,我们都知道,现在很多的页面都是用动态加载的技术,这一方面带来了良好的页面体验,另一方面,在抓取时或者或少的带来了相当大的麻烦,因为我们知道直接g... 阅读全文
摘要:
转载请注明出处:http://www.cnblogs.com/codefish/p/4971664.html 在了解爬虫之前,我一直认为是简单的对单一网站的采集,无非就是对于一个域名内定点的数据抓取而已,2012年买了《数学之美》后,就一直没有正儿八经的看,或者当时看了之后,由于自己的水平有限,压根... 阅读全文
摘要:
转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能在经过数据筛选,然后异步的使用文件下载类来达到目的,Scrapy框架中本身已经实现了文件及图片下载的文... 阅读全文
摘要:
转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的算法,一直在听这个名词,但一直没有正儿八经的去了解,今天看到了一篇关于Bloom Filter 的讲... 阅读全文
摘要:
转自:http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html目录1. GIL(Global Interpretor Lock,全局解释器锁)2. threading2.1. 创建线程2.2. 使用线程... 阅读全文
只有注册用户登录后才能阅读该文。 阅读全文
摘要:
最近逐渐打算将工作的环境转移到ubuntu下,突然发现对于我来说,这ubuntu对于我这种上上网,收收邮件,写写博客,写写程序的时实在是太合适了,除了刚接触的时候会不怎么完全适应命令行及各种权限管理,apt-get命令相当的方便,各种原先在windows下各种奇怪错误在ubuntu下都没有出现了... 阅读全文
只有注册用户登录后才能阅读该文。 阅读全文
摘要:
软件版本: redis-2.4.6-setup-64-bit.exe— Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备,我们知道单机的爬虫始终会有一个性能瓶颈,特别是对于是否爬过的URL来说,存... 阅读全文