第一步 下载scrapy模块:
pip install scrapy
第二步 创建项目
在终端/cmd进入创建项目的目录:scrapy startproject douban(项目名)
导入pycharm
第三步 创建爬虫类
1.在terminal中进入项目中的spiders目录:
输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)
第四步 设置
1.将ROBOTSTXT_OBEY = True 改为 False
2.打开管道:
ITEM_PIPELINES = {
'douban.pipelines.DoubanPipeline': 300,
}
3.打开该设置并修改:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}
第五步 编写项目
1.在items中编写创建的爬虫中的爬虫类,爬取数据
2.在pipelines.python中编写管道,储存数据
3.运行:
在命令中输入: scrapy crawl douban_spider(爬虫名)