Scrapy - 随笔分类 - 北兢王

Scrapy的post请求

摘要：scrapy默认发送的是get请求，发送post请求时需要重写start_requests(self)方法 import scrapy class PostspiderSpider(scrapy.Spider): name = 'postSpider' allowed_domains = ['www 阅读全文

posted @ 2021-11-01 18:56 北兢王阅读(478) 评论(0) 推荐(0)

Scrapy爬虫的暂停和启动

摘要：在执行爬虫时使用以下命令 scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径例： scrapy crawl movie -s JOBDIR=stop_scrapy # 执行命令会启动指定爬虫，并且记录状态到指定目录stop_scrapy中爬虫已经启动，我们可以按键盘上的c 阅读全文

posted @ 2021-11-01 00:10 北兢王阅读(288) 评论(0) 推荐(0)

CrawlSpider

摘要：CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提阅读全文

posted @ 2021-11-01 00:08 北兢王阅读(99) 评论(0) 推荐(0)

Scrapy日志

摘要：日志级别 CRITICAL：严重错误 ERROR：一般错误 WARNING：警告 INFO: 一般信息 DEBUG：调试信息只要出现了DEBUG或者DEBUG以上等级的日志，那么这些日志将会打印在settings.py文件中设置 LOG_LEVEL = 'ERROR' # 设置日志显示的等阅读全文

posted @ 2021-10-30 13:32 北兢王阅读(109) 评论(0) 推荐(0)

Scrapy连接MySQL

摘要：同步存储 import pymysql class ScrapyMoviePipeline: def __init__(self): self.conn = pymysql.connect( host='127.0.0.1', user='root', passwd='admin@123', db= 阅读全文

posted @ 2021-10-30 12:28 北兢王阅读(364) 评论(0) 推荐(0)

Scrapy中yield的使用

摘要：带有 yield 的函数不再是一个普通函数，而是一个生成器generator，可用于迭代 yield 是一个类似 return 的关键字，迭代一次遇到yield时就返回yield后面(右边)的值重点是：下一次迭代时，从上一次迭代遇到的yield后面的代码(下一行)开始执行简要理解：yield就是阅读全文

posted @ 2021-10-28 19:58 北兢王阅读(1331) 评论(0) 推荐(0)

Scrapy Shell

摘要：scrapy shell是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在阅读全文

posted @ 2021-10-25 23:50 北兢王阅读(140) 评论(0) 推荐(0)

Scrapy原理

摘要：1.架构组成引擎：自动运行，无需关注，会自动组织所有的请求对象，分发给下载器下载器：从引擎处获取到请求对象后，请求数据 spiders ：Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Sp 阅读全文

posted @ 2021-10-25 00:05 北兢王阅读(137) 评论(0) 推荐(0)

创建运行Scrapy项目

摘要：1.创建Scrapy项目 scrapy startproject 项目名称例： scrapy startproject myScrapyProject scrapy项目目录结构 myScrapyProject myScrapyProject spiders _init_.py 自定义的爬虫文件.p 阅读全文

posted @ 2021-10-24 22:56 北兢王阅读(123) 评论(0) 推荐(0)

用pyinstaller打包scrapy成exe文件

摘要：写好的python程序要打包成windows的可执行文件，一般都是用pyinstaller。比如你要对test.py这个文件打包，一般的pyinstaller -F test.py就可以了。还有另一种用法，就是用spec文件，spec文件其实就相当于一个打包的架构文件，里面写了要怎么打包，类似于do 阅读全文

posted @ 2021-10-24 22:09 北兢王阅读(1030) 评论(0) 推荐(0)

Loading

小王

炊烟尽处有人家，一亩耕勤到日斜。薄米犹同星入碗，桑居亦可号琅琊。

随笔分类 - Scrapy

公告

Loading

小王

炊烟尽处有人家，一亩耕勤到日斜。 薄米犹同星入碗，桑居亦可号琅琊。

随笔分类 - Scrapy

公告

炊烟尽处有人家，一亩耕勤到日斜。薄米犹同星入碗，桑居亦可号琅琊。