Scrapy第一个项目创建

创建项目

  • scrapy startproject +项目名称
  • 项目树
    .
    │ scrapy.cfg

    ├─.idea
    │ │ .gitignore
    │ │ misc.xml
    │ │ modules.xml
    │ │ myspider.iml
    │ │ workspace.xml
    │ │
    │ └─inspectionProfiles
    │ profiles_settings.xml
    │ Project_Default.xml

    └─myspider
    │ items.py
    │ logging.md
    │ middlewares.py
    │ pipelines.py
    │ scrapy.md
    │ settings.py
    init.py

    ├─spiders
    │ │ book.py
    │ │ init.py
    │ │
    │ └─__pycache__
    │ book.cpython-38.pyc
    init.cpython-38.pyc

    └─__pycache__
    middlewares.cpython-38.pyc
    pipelines.cpython-38.pyc
    settings.cpython-38.pyc
    init.cpython-38.pyc

创建爬虫

  • scrapy genspider [爬虫名称] [目标网址]
    • 例如 scrapy genspider book paoshuzw.com
    • 创建的爬虫文件为.py文件,储存在spides文件夹下
  • book.py
    
    import scrapy
    class TencentHrSpider(scrapy.Spider):
      name = 'book'# 爬虫名
      allowed_domains = ['paoshuzw.com'] #允许爬虫范围
      start_urls = ['http://www.paoshuzw.com/xiaoshuodaquan/'] # 最开始的url地址
      def parse(self, response):
        # 处理start_urls地址对应的响应
            pass
    
posted @ 2021-02-26 16:58  子林十四  阅读(127)  评论(0编辑  收藏  举报