scrapy安装及基本使用

前端html, css, js 相关知识

数据库运用

http协议的了解

前后台联动

蜘蛛中间件、下载中间件

下载中间件的地方可以写各种反爬的策略

1、使用pip安装， pip3 install scrapy

2、下载whl文件 , http://www.lfd.uci.edu/~gohlke/pythonlibs

进入这个网站去下载lxml pip install “文件名”

基本的爬虫，包括spider, pipeline

item管理主要负责处理从网页中抽取出来的item，主要任务是清洗、验证和存储数据

scrapy startproject hello_world

按照cmd中的提示信息，继续往下操作

在spider中，入口是 start_urls 查到要爬去的网站的url

name属性决定了去启动哪个爬虫

allow_domain决定了只爬取哪个域名的

函数请求的结果自动调用默认的parse函数（解析函数）

或者可以重写start_requests方法，定义自己的启动方法

如何启动一个爬虫，应该创建一个文件

from scrapy import cmdline

cmdline.execute("scrapy crawl 爬虫名字".split())

scrapy的选择器的用法：

css, xpath , re , pyquery

beautifulsoup , lxml, css ,xpath , re , pyquery

response.xpath().extract_first()

from pyquery import PyQuery

scrapy 的项目管道

item pipeline

posted on 2018-03-04 17:08 yingchen 阅读(160) 评论(0) 收藏举报

刷新页面返回顶部

yingchen