随笔分类 - Scrapy
爬虫框架
摘要:scrapy默认发送的是get请求,发送post请求时需要重写start_requests(self)方法 import scrapy class PostspiderSpider(scrapy.Spider): name = 'postSpider' allowed_domains = ['www
阅读全文
摘要:在执行爬虫时使用以下命令 scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径 例: scrapy crawl movie -s JOBDIR=stop_scrapy # 执行命令会启动指定爬虫,并且记录状态到指定目录stop_scrapy中 爬虫已经启动,我们可以按键盘上的c
阅读全文
摘要:CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提
阅读全文
摘要:日志级别 CRITICAL:严重错误 ERROR: 一般错误 WARNING: 警告 INFO: 一般信息 DEBUG: 调试信息 只要出现了DEBUG或者DEBUG以上等级的日志,那么这些日志将会打印 在settings.py文件中设置 LOG_LEVEL = 'ERROR' # 设置日志显示的等
阅读全文
摘要:同步存储 import pymysql class ScrapyMoviePipeline: def __init__(self): self.conn = pymysql.connect( host='127.0.0.1', user='root', passwd='admin@123', db=
阅读全文
摘要:带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yield后面(右边)的值 重点是:下一次迭代时,从上一次迭代遇到的yield后面的代码(下一行)开始执行 简要理解:yield就是
阅读全文
摘要:scrapy shell是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在
阅读全文
摘要:1.架构组成 引擎:自动运行,无需关注,会自动组织所有的请求对象,分发给下载器 下载器:从引擎处获取到请求对象后,请求数据 spiders :Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例 如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Sp
阅读全文
摘要:1.创建Scrapy项目 scrapy startproject 项目名称 例: scrapy startproject myScrapyProject scrapy项目目录结构 myScrapyProject myScrapyProject spiders _init_.py 自定义的爬虫文件.p
阅读全文
摘要:写好的python程序要打包成windows的可执行文件,一般都是用pyinstaller。比如你要对test.py这个文件打包,一般的pyinstaller -F test.py就可以了。还有另一种用法,就是用spec文件,spec文件其实就相当于一个打包的架构文件,里面写了要怎么打包,类似于do
阅读全文