文章分类 - scrapy 分布式爬取sina数据

开始分布式爬虫------（五）

摘要：写一个执行项目的py文件，main: 将项目复制一份到Ubantu虚拟机里，Windows和Linux里同时执行项目，你会发现代码执行之后阻塞了，这是因为我们还没有 lpush start_urls。下面用Linux里面的操作截图说明：输入上面的代码之后你可以看见Linux和Windows里都开始阅读全文

posted @ 2018-06-06 00:07 巴蜀秀才阅读(126) 评论(0) 推荐(0) 编辑

配置settings ------ （四）

摘要：配置和普通的spider是差不多的，具体添加如下：阅读全文

posted @ 2018-06-05 23:56 巴蜀秀才阅读(106) 评论(0) 推荐(0) 编辑

书写爬虫文件------（三）

摘要：创建爬虫文件： scrapy genspider sina_spider "sina.com.cn" 书写爬虫文件：我们这里是用的redis数据库保存数据，你可以把数据转到其他数据库，也可以将数据写到建立的文件夹下，这里只是演示分布式爬虫，所以并没有将数据保存到相应的文件夹。阅读全文

posted @ 2018-06-05 23:54 巴蜀秀才阅读(289) 评论(0) 推荐(0) 编辑

编写爬虫管道------（二）

摘要：进入项目，找到items.py文件，明确爬虫目标：阅读全文

posted @ 2018-06-05 23:49 巴蜀秀才阅读(269) 评论(0) 推荐(0) 编辑

创建爬虫项目------(一)

摘要：本次实验，我们基于windows系统和Ubantu虚拟机去做分布式爬取的简单介绍。如果scrapy框架安装过程中有什么问题可以百度解决。作者在Windows是安装时，出现： Scrapy安装错误：Microsoft Visual C++ 14.0 is required... 解决办法见 lsh 阅读全文

posted @ 2018-06-05 17:51 巴蜀秀才阅读(136) 评论(0) 推荐(0) 编辑

公告

昵称：巴蜀秀才
园龄： 7年1个月
粉丝： 21
关注： 10

+加关注

2025年3月

日

一

二

三

四

五

六

巴蜀秀才

文章分类 - scrapy 分布式爬取sina数据

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论