01 2023 档案
摘要:import scrapy import json class TestpostSpider(scrapy.Spider): name = 'testpost' allowed_domains = ['https://fanyi.baidu.com/sug'] # post请求 如果没有参数 那么这
阅读全文
摘要:(1)日志级别: CRITICAL:严重错误 ERROR: 一般错误 WARNING: 警告 INFO: 一般信息 DEBUG: 调试信息 默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志 那么这些日志将会打印 (2)settings.py文件设置: 默认的级别为DEBU
阅读全文
摘要:CrawlSider: 1.继承自scrapy.Spider 2.独门秘笈 CrawlSpider可以定义规则,再解析html内容的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发 送请求 所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSpid
阅读全文
摘要:设计多个页面的时候,要用到meta参数 获取第一页的链接,第二页的图片。 import scrapy from scrapy_movie_099.items import ScrapyMovie099Item class MvSpider(scrapy.Spider): name = 'mv' al
阅读全文
摘要:yield 开启多管道在setting.py中新开一个管道 ,pipelines 下写详细,注意url地址。 当当网爬取案例 import scrapy from scrapy_dangdang_095.items import ScrapyDangdang095Item class DangSpi
阅读全文
摘要:scrapy shell : Scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取
阅读全文
摘要:汽车之间案例: import scrapy class CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['https://car.autohome.com.cn/price/brand-15.html'] # 注意如果你的请求的接口
阅读全文
摘要:scrapy项目结构:. 1. scrapy项目的结构 项目名字 项目名字 spiders文件夹 (存储的是爬虫文件) init 自定义的爬虫文件 核心功能文件 **************** init items 定义数据结构的地方 爬取的数据都包含哪些 middleware 中间件 代理 pi
阅读全文