创建Scrapy爬虫框架项目
-
打开cmd
-
想将项目放在C:\python\PycharmProjects\scrapy_demo文件夹下,cd到该目录下
-
输入创建项目命令:scrapy startproject project_name
-
使用pycharm打开项目所在目录
-
文件说明
items.py是定义存储对象的文件,决定爬取哪些项目;
middlewares.py文件是中间件,一般不用进行修改,主要负责相关组件之间的请求与响应;
pipelines.py是管道文件,决定爬取后的数据如何进行处理和存储;
settings.py是项目的设置文件,设置项目管道数据的处理方法、爬虫频率、表名等;
spiders文件夹中放置的是爬虫主体文件(用于实现爬虫逻辑)和一个__init__.py空文件。