爬虫scrapy-begin

参考：

https://www.osgeo.cn/scrapy/intro/tutorial.html

创建project后的目录结构如下：

project_name(folder)

------project_name(folder)

------scrapy.cfg

一、建立python运行env

二、启动env

D:\00\pystudy\01env\Scripts>activate.bat

(01env) D:\00\pystudy\01env\Scripts>pip list

三、安装 scripy

(01env) D:\00\pystudy\01env\Scripts>pip install Scripy

四、确认是否成功

(01env) D:\00\pystudy\01env\Scripts>pip list
Package Version
---------------- -------
asgiref 3.2.3
attrs 19.3.0
Automat 20.2.0
cffi 1.14.0
constantly 15.1.0
cryptography 2.8
cssselect 1.1.0
Django 3.0.3
scripy 1.8

Django 3.0.3

五、创建爬虫工程跟目录

(01env) D:\00\pystudy>mkdir 09scripy

(01env) D:\00\pystudy>cd 09scripy

六、进入目录，创建工程

(01env) D:\00\pystudy\09scripy>scrapy startproject scrapy_spider

七、用pycharm打开，

八、工程创建完后，创建爬虫

可以用指令模板创建，也可以手工创建py文件。

(01env) D:\00\pystudy\09scripy>cd scrapy_spider

(01env) D:\00\pystudy\09scripy\scrapy_spider>scrapy genspider quotes_spider quotes.toscrape.com
Created spider 'quotes_spider' using template 'basic' in module:
scrapy_spider.spiders.quotes_spider

九、编辑parse() ，运行

    def parse(self, response):
        quotes = response.xpath("//div[@class='quote']//span[@class='text']/text()").extract()
        yield {'quotes': quotes}

在工程目录下（含scrapy.cfg）,执行 scrapy crawl quotes_spider

posted @ 2020-02-24 16:58 花生与酒阅读(176) 评论(0) 收藏举报

刷新页面返回顶部

花生与浊酒

主要是工作和学习备忘笔记，大部分是实验记录＋加工整理，少量复制粘贴博友的资料（请谅解）

爬虫scrapy-begin

公告