scrapy安装（Linux环境）及爬取百度

安装scrapy

1、在终端中激活虚拟环境；注意：

（1）虚拟环境之前已建立，可以在pycharm中事先建好

（2）得与虚拟环境文件夹在同一目录下才能找到并激活虚拟环境

命令：source activate {虚拟环境名称}

激活后路径最前面有(虚拟环境名称)的显示

2、安装scrapy

pip install Scrapy

3、安装后查看

scrapy version

显示版本号则说明安装成功。

1、在终端中激活虚拟环境

source activate spider

2、进入/spider下目录/exec

cd /spider/exec

3、在exec目录下创建scrapy项目e14

scrapy startproject e14

4、在自动生成的目录/e14/spider下，新建baiduspider.py，写BaiduSpider类

5、在终端中先进入e14目录，再爬百度

cd e14

scrapy crawl baidu

此时爬不到内容，但是能看到response_status_count/200，即访问成功。

6、打开settings.py文件，将ROBOTSTXT_OBEY参数由True改为False，即：

ROBOTSTXT_OBEY = False

7、再次执行scrapy crawl baidu，即可取得内容。

posted @ 2020-03-16 20:37 djl_djl 阅读(434) 评论(0) 编辑收藏举报

刷新页面返回顶部