随笔分类 -  机器学习

All about ML
摘要:转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能在经过数据筛选,然后异步的使用文件下载类来达到目的,Scrapy框架中本身已经实现了文件及图片下载的文... 阅读全文
posted @ 2015-11-16 11:00 爱吃猫的鱼 阅读(2162) 评论(2) 推荐(4) 编辑
摘要:转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的算法,一直在听这个名词,但一直没有正儿八经的去了解,今天看到了一篇关于Bloom Filter 的讲... 阅读全文
posted @ 2015-11-13 14:56 爱吃猫的鱼 阅读(1036) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2015-11-10 16:18 爱吃猫的鱼 阅读(234) 评论(0) 推荐(1) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2015-11-06 14:17 爱吃猫的鱼 阅读(492) 评论(1) 推荐(0) 编辑
摘要:软件版本: redis-2.4.6-setup-64-bit.exe— Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备,我们知道单机的爬虫始终会有一个性能瓶颈,特别是对于是否爬过的URL来说,存... 阅读全文
posted @ 2015-11-05 14:51 爱吃猫的鱼 阅读(659) 评论(0) 推荐(0) 编辑
摘要:放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着手 1)预加载需要爬取的列表,直接到这个列表都处理完,相应的爬取工作都已经完成了。 2)从第一页开始... 阅读全文
posted @ 2015-09-07 15:35 爱吃猫的鱼 阅读(5063) 评论(3) 推荐(2) 编辑
摘要:本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法:一,猜想 我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) 2.解析文档对象(将请求的网页当作是html文档还是字符串) 3.承载所需要的解析对象(标准格式的... 阅读全文
posted @ 2015-09-02 17:07 爱吃猫的鱼 阅读(1367) 评论(3) 推荐(0) 编辑
摘要:关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下载地址:http://continuum.io/downloads 两个版本,64位和32位,根... 阅读全文
posted @ 2015-09-01 12:41 爱吃猫的鱼 阅读(582) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示