（六--一）scrapy框架简介和基础应用

一什么是scrapy框架#

官方解释

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的， 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫

自己理解

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）
的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可

二 scrapy框架的安装#

　Linux：

      pip3 install scrapy

 

　　Windows：

      a. pip3 install wheel

      b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

      d. pip3 install pywin32

      e. pip3 install scrapy

三基本使用#

步骤:#

　　1 创建工程

　　2 进去第二层目录--创建爬虫应该程序

　　3 编写爬虫文件

　　4 修改setting文件

　　5 执行爬虫

具体:#

　　1 创建工程

scrapy startproject 项目名称

# 例如 

scrapy startproject first_project

　　2 进去第二层目录--创建爬虫应该程序

cd project_name（进入项目目录）

scrapy genspider 应用名称 爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

# 例如

cd first_project
scrapy genspider qiubai www.qiushibaike.com

　　3 编写爬虫文件--在执行完前2步之后,会在项目的spiders中生成一个应用名(qiubai)的py文件,文件源码如下

import scrapy


class QiubaiSpider(scrapy.Spider):
　　# 应用名称
    name = 'qiubai'
　　# 允许爬取的域名[如果遇见不是该域名下的url则爬取不到]
    allowed_domains = ['www.qiushibaike.com']
　　# 起始url
    start_urls = ['https://www.qiushibaike.com/']
　　# 访问起始url并获取结果后的回调函数,该函数的response参数就是向起始的url发送请求后,获取的响应对象,该函数返回值必须为可迭代对象或者NULL
    def parse(self, response):
        print(response)

　　4 修改setting文件

# 19行
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

# 22行
ROBOTSTXT_OBEY = False

　　5 执行爬虫

scrapy crawl  应用名称
# 例如
scrapy crawl  qiubai

#

posted @ 2019-01-03 09:36 流年中渲染了微笑阅读(247) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 25岁的心里话
· ollama系列01：轻松3步本地部署deepseek，普通电脑可用
· 按钮权限的设计及实现

公告

昵称：流年中渲染了微笑
园龄： 7年3个月
粉丝： 33
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

流年中渲染了微笑

（六--一）scrapy框架简介和基础应用

一什么是scrapy框架#

二 scrapy框架的安装#

三基本使用#

步骤:#

具体:#

#

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

一 什么是scrapy框架#

二 scrapy框架的安装#

三 基本使用#

步骤:#

具体:#

公告

搜索

常用链接

随笔档案

一什么是scrapy框架#

三基本使用#