01 2023 档案

scrapy 的post请求

摘要：import scrapy import json class TestpostSpider(scrapy.Spider): name = 'testpost' allowed_domains = ['https://fanyi.baidu.com/sug'] # post请求如果没有参数那么这阅读全文

posted @ 2023-01-04 22:23 信2005-2赵磊阅读(17) 评论(0) 推荐(0) 编辑

日志信息和日志等级

摘要：（1）日志级别： CRITICAL：严重错误 ERROR：一般错误 WARNING：警告 INFO: 一般信息 DEBUG：调试信息默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志那么这些日志将会打印（2）settings.py文件设置：默认的级别为DEBU 阅读全文

posted @ 2023-01-04 21:55 信2005-2赵磊阅读(56) 评论(0) 推荐(0) 编辑

CrawlSider && 数据库

摘要：CrawlSider: 1.继承自scrapy.Spider 2.独门秘笈 CrawlSpider可以定义规则，再解析html内容的时候，可以根据链接规则提取出指定的链接，然后再向这些链接发送请求所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSpid 阅读全文

posted @ 2023-01-04 21:23 信2005-2赵磊阅读(17) 评论(0) 推荐(0) 编辑

scrapy 案例：电影天堂多数据下载

摘要：设计多个页面的时候，要用到meta参数获取第一页的链接，第二页的图片。 import scrapy from scrapy_movie_099.items import ScrapyMovie099Item class MvSpider(scrapy.Spider): name = 'mv' al 阅读全文

posted @ 2023-01-04 14:29 信2005-2赵磊阅读(183) 评论(0) 推荐(0) 编辑

Yyield && scrapy案例：当当网爬取数据 &&开启多管道下载

摘要：yield 开启多管道在setting.py中新开一个管道，pipelines 下写详细，注意url地址。当当网爬取案例 import scrapy from scrapy_dangdang_095.items import ScrapyDangdang095Item class DangSpi 阅读全文

posted @ 2023-01-04 13:28 信2005-2赵磊阅读(76) 评论(0) 推荐(0) 编辑

scrapy shell && ipython

摘要：scrapy shell ： Scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取阅读全文

posted @ 2023-01-04 10:45 信2005-2赵磊阅读(21) 评论(0) 推荐(0) 编辑

scarpy架构组成和工作原理

摘要：汽车之间案例： import scrapy class CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['https://car.autohome.com.cn/price/brand-15.html'] # 注意如果你的请求的接口阅读全文

posted @ 2023-01-04 10:27 信2005-2赵磊阅读(24) 评论(0) 推荐(0) 编辑

scrapy项目结构和爬取58同城的案例

摘要：scrapy项目结构：. 1. scrapy项目的结构项目名字项目名字 spiders文件夹（存储的是爬虫文件） init 自定义的爬虫文件核心功能文件 **************** init items 定义数据结构的地方爬取的数据都包含哪些 middleware 中间件代理 pi 阅读全文

posted @ 2023-01-04 10:05 信2005-2赵磊阅读(53) 评论(0) 推荐(0) 编辑