03 2023 档案

摘要:Scrapy中的Request对象是用于表示一个HTTP请求的类。以下是一些常见的属性和方法: 属性: url: 请求的URL。 callback: 在响应返回后,将调用的回调函数。 method: 请求方法,默认为'GET'。 headers: 请求头。默认值为None。 cookies: 请求时 阅读全文
posted @ 2023-03-16 11:42 Rev_RoastDuck 阅读(104) 评论(0) 推荐(0) 编辑
摘要:response Scrapy中的`response`对象是一个包含HTTP响应的Python对象,具有以下属性和方法: **属性** url: 响应的URL。 status: 响应的HTTP状态码。 headers: 包含响应头信息的字典。 body: 响应正文的原始二进制数据。 text: 响应 阅读全文
posted @ 2023-03-16 11:29 Rev_RoastDuck 阅读(207) 评论(0) 推荐(0) 编辑
摘要:问题 在挖掘数据时,数据存在于js文件内,所以主要思路就是,把数据提取出来,直接转json格式,通过字典的键索引获取数据。奈何在转json格式的时候一直报错。 报错:Expecting value: line 1 column 2012 (char 1) 我总不能一个一个字符地数吧!! 问题分析 通 阅读全文
posted @ 2023-03-07 13:34 Rev_RoastDuck 阅读(92) 评论(0) 推荐(0) 编辑
摘要:await/async关键字 异步IO(asyncio)协程 python aiohttp的使用 爬虫相关性能(各个异步模块的使用,和自定义异步IO模块) 转载自山上有风景 阅读全文
posted @ 2023-03-06 13:17 Rev_RoastDuck 编辑
摘要:前言 在爬爬爬的时候,有些网页的数据并不存在于html中,它们常出现在scrip标签或js文件里面,所有这时候使用xpath就有些不尽人意了。但是,我们可以直接使用re对script的内容进行提取,然后再转json格式,再通过字典索引的方法对数据逐个提取。但是,面对近百万字符的文本,正则的运行速度堪 阅读全文
posted @ 2023-03-06 08:15 Rev_RoastDuck 阅读(81) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示