随笔分类 -  Scrapy

爬虫框架
摘要:scrapy默认发送的是get请求,发送post请求时需要重写start_requests(self)方法 import scrapy class PostspiderSpider(scrapy.Spider): name = 'postSpider' allowed_domains = ['www 阅读全文
posted @ 2021-11-01 18:56 北兢王 阅读(463) 评论(0) 推荐(0) 编辑
摘要:在执行爬虫时使用以下命令 scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径 例: scrapy crawl movie -s JOBDIR=stop_scrapy # 执行命令会启动指定爬虫,并且记录状态到指定目录stop_scrapy中 爬虫已经启动,我们可以按键盘上的c 阅读全文
posted @ 2021-11-01 00:10 北兢王 阅读(252) 评论(0) 推荐(0) 编辑
摘要:CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提 阅读全文
posted @ 2021-11-01 00:08 北兢王 阅读(90) 评论(0) 推荐(0) 编辑
摘要:日志级别 CRITICAL:严重错误 ERROR: 一般错误 WARNING: 警告 INFO: 一般信息 DEBUG: 调试信息 只要出现了DEBUG或者DEBUG以上等级的日志,那么这些日志将会打印 在settings.py文件中设置 LOG_LEVEL = 'ERROR' # 设置日志显示的等 阅读全文
posted @ 2021-10-30 13:32 北兢王 阅读(105) 评论(0) 推荐(0) 编辑
摘要:同步存储 import pymysql class ScrapyMoviePipeline: def __init__(self): self.conn = pymysql.connect( host='127.0.0.1', user='root', passwd='admin@123', db= 阅读全文
posted @ 2021-10-30 12:28 北兢王 阅读(341) 评论(0) 推荐(0) 编辑
摘要:带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yield后面(右边)的值 重点是:下一次迭代时,从上一次迭代遇到的yield后面的代码(下一行)开始执行 简要理解:yield就是 阅读全文
posted @ 2021-10-28 19:58 北兢王 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:scrapy shell是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在 阅读全文
posted @ 2021-10-25 23:50 北兢王 阅读(114) 评论(0) 推荐(0) 编辑
摘要:1.架构组成 引擎:自动运行,无需关注,会自动组织所有的请求对象,分发给下载器 下载器:从引擎处获取到请求对象后,请求数据 spiders :Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例 如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Sp 阅读全文
posted @ 2021-10-25 00:05 北兢王 阅读(127) 评论(0) 推荐(0) 编辑
摘要:1.创建Scrapy项目 scrapy startproject 项目名称 例: scrapy startproject myScrapyProject scrapy项目目录结构 myScrapyProject myScrapyProject spiders _init_.py 自定义的爬虫文件.p 阅读全文
posted @ 2021-10-24 22:56 北兢王 阅读(110) 评论(0) 推荐(0) 编辑
摘要:写好的python程序要打包成windows的可执行文件,一般都是用pyinstaller。比如你要对test.py这个文件打包,一般的pyinstaller -F test.py就可以了。还有另一种用法,就是用spec文件,spec文件其实就相当于一个打包的架构文件,里面写了要怎么打包,类似于do 阅读全文
posted @ 2021-10-24 22:09 北兢王 阅读(973) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩