文章分类 -  scrapy 分布式爬取sina数据

摘要:写一个执行项目的py文件,main: 将项目复制一份到Ubantu虚拟机里,Windows和Linux里同时执行项目,你会发现代码执行之后阻塞了,这是因为我们还没有 lpush start_urls。下面用Linux里面的操作截图说明: 输入上面的代码之后你可以看见Linux和Windows里都开始 阅读全文
posted @ 2018-06-06 00:07 巴蜀秀才 阅读(126) 评论(0) 推荐(0) 编辑
摘要:配置和普通的spider是差不多的,具体添加如下: 阅读全文
posted @ 2018-06-05 23:56 巴蜀秀才 阅读(106) 评论(0) 推荐(0) 编辑
摘要:创建爬虫文件: scrapy genspider sina_spider "sina.com.cn" 书写爬虫文件: 我们这里是用的redis数据库保存数据,你可以把数据转到其他数据库,也可以将数据写到建立的文件夹下,这里只是演示分布式 爬虫,所以并没有将数据保存到相应的文件夹。 阅读全文
posted @ 2018-06-05 23:54 巴蜀秀才 阅读(289) 评论(0) 推荐(0) 编辑
摘要:进入项目,找到items.py文件,明确爬虫目标: 阅读全文
posted @ 2018-06-05 23:49 巴蜀秀才 阅读(269) 评论(0) 推荐(0) 编辑
摘要:本次实验,我们基于windows系统和Ubantu虚拟机去做分布式爬取的简单介绍。 如果scrapy框架安装过程中有什么问题可以百度解决。作者在Windows是安装时,出现 : Scrapy安装错误:Microsoft Visual C++ 14.0 is required... 解决办法见 lsh 阅读全文
posted @ 2018-06-05 17:51 巴蜀秀才 阅读(136) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示