爬虫scrapy框架的使用

第一步下载scrapy模块:

　　pip install scrapy

第二步创建项目

　　在终端/cmd进入创建项目的目录:scrapy startproject douban(项目名)

　　导入pycharm

第三步创建爬虫类

　　1.在terminal中进入项目中的spiders目录:

　　输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)

第四步设置

　　1.将ROBOTSTXT_OBEY = True 改为 False

　　2.打开管道:

　　ITEM_PIPELINES = {
　　'douban.pipelines.DoubanPipeline': 300,
　　}

　　3.打开该设置并修改:

　　DEFAULT_REQUEST_HEADERS = {

　　'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
　　'Accept-Language': 'en',
　　'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
　　}

第五步编写项目

　　1.在items中编写创建的爬虫中的爬虫类,爬取数据

　　2.在pipelines.python中编写管道,储存数据

　　3.运行:

　　在命令中输入: scrapy crawl douban_spider(爬虫名)