scrapy的项目详解

1.scrapy安装好后,即可在终端中输入“scrapy”,这样将会显示帮助信息。

 bench:是 Scrapy 的基准测试工具,它可以用于测试 Scrapy 在不同设置下的性能表现和吞吐量等。
         bench 工具会模拟网络环境和网站数据,对 Scrapy 进行压力测试,并输出测试结果。
         使用 bench 工具可以帮助开发者找出性能瓶颈和优化空间,提高爬虫的效率和稳定性。
commands:
    1.startproject:创建一个新的 Scrapy 项目,指定项目名称和起始目录。例如:scrapy startproject myproject。

    2.genspider:创造一个新的 Spider,指定 Spider 名称和爬取的域名。例如:scrapy genspider myspider example.com。

    3.crawl:启动指定的 Spider 进行数据爬取。例如:scrapy crawl myspider。

    4.list:列出当前 Scrapy 项目中所有可用的 Spider。例如:scrapy list。

    5.shell:使用交互式 Shell 测试某些代码或者 XPath 表达式。例如:scrapy shell "https://www.example.com"。

    6.fetch:获取某个 URL 的响应并输出到屏幕上,主要用于测试。例如:scrapy fetch "https://www.example.com"。

    7.view:在浏览器中查看某个 URL 的页面。例如:scrapy view "https://www.example.com"。

    8.version:显示当前安装的 Scrapy 版本号。例如:scrapy version。

 

2.使用 Scrapy 创建的爬虫程序通常有以下目录结构:

scrapy_project/  # 项目目录
├── scrapy.cfg  # Scrapy 项目配置文件
└── scrapy_project/  # Scrapy 项目的根目录。
    ├── __init__.py  # Python 包的标识文件
    ├── items.py  # 定义数据模型的文件,即定义需要从网页上抓取的字段。
    ├── middlewares.py  # 存放中间件的文件,中间件可以在爬取数据的过程中进行一些额外的处理,例如更改请求头、请求体等。
    ├── pipelines.py  # 存放管道的文件,管道用于处理 Spider 提取到的数据,可以进行数据清洗、去重、存储等操作。
    ├── settings.py  # 存放 Scrapy 项目的设置,例如爬虫的超时时间、请求头信息等。
    └── spiders/  # 存放 Spider 的目录
        ├── __init__.py
        └── spider_name.py  # 自定义的 Spider 类所在文件,定义如何爬取网页、如何解析网页等。

# 这些文件和目录是 Scrapy 爬虫程序的基本组成部分,爬虫程序的其他文件和目录可以根据实际需求进行添加或修改。

 

posted on 2023-06-05 10:51  夜黎i  阅读(40)  评论(0)    收藏  举报

导航