哆啦A梦 50周年应援
摘要: XMLHttpRequest.open() 初始化 HTTP 请求参数 语法open(method, url, async, username, password) method 参数是用于请求的 HTTP 方法。值包括 GET、POST 和 HEAD。 ( 大小写不敏感。 POST:用"POST" 阅读全文
posted @ 2021-11-17 15:59 秋泊ソース 阅读(397) 评论(0) 推荐(1) 编辑
摘要: 1)重写start_requests方法: def start_requests(self) 2) start_requests的返回值: scrapy.FormRequest(url=url, headers=headers, callback=self.parse_item, formdata= 阅读全文
posted @ 2021-11-18 19:01 秋泊ソース 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 日志信息和日志等级 1)日志级别: CRITICAL:严重错误 ERROR: 一般错误 WARNING: 警告 INFO: 一般信息 DEBUG: 调试信息 默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志 那么这些日志将会打印 2)settings.py文件设置: 默认 阅读全文
posted @ 2021-11-18 17:59 秋泊ソース 阅读(221) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider_获取图片名称地址,及入库 1.继承自scrapy.Spider 2.独门秘笈 CrawlSpider可以定义规则,再解析html内容的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发送请求 所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSpider是非常合适的 3.提取 阅读全文
posted @ 2021-11-17 14:23 秋泊ソース 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 嵌套的 爬取 先获取第一页的标题 点击标题到第二页的图片url 1、创建项目 > scrapy startproject scrapy_movie_099 2、创建爬虫文件 spiders>scrapy genspider mv https: //www.dytt8.net/html/gndy/ch 阅读全文
posted @ 2021-11-16 11:29 秋泊ソース 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 结合上节,网多页的获取只需要修改 dang.py import scrapy from scrapy_dangdang.items import ScrapyDangdang095Item class DangSpider(scrapy.Spider): name = 'dang' # 如果是多页下 阅读全文
posted @ 2021-11-15 23:19 秋泊ソース 阅读(48) 评论(0) 推荐(0) 编辑
摘要: yield 1. 带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 2. yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yield后面(右边)的值。重点是:下一次迭代时,从上一次迭代遇到的yield后面的代码(下一行)开始执行 阅读全文
posted @ 2021-11-15 23:00 秋泊ソース 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 什么是scrapy shell? Scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬 阅读全文
posted @ 2021-11-15 21:16 秋泊ソース 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 1、创建scrapy项目 >scrapy startproject scrapy_carhome 2、找到对应接口 3、创建爬虫文件 > cd scrapy_carhome\scrapy_carhome\spiders scrapy_carhome\scrapy_carhome\spiders> s 阅读全文
posted @ 2021-11-13 15:59 秋泊ソース 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 1. scrapy项目的结构 项目名字 项目名字 spiders文件夹 (存储的是爬虫文件) init 自定义的爬虫文件 核心功能文件 **************** init items 定义数据结构的地方 爬取的数据都包含哪些 middleware 中间件 代理 pipelines 管道 用来 阅读全文
posted @ 2021-11-13 15:23 秋泊ソース 阅读(137) 评论(0) 推荐(0) 编辑