03 2023 档案
摘要:Scrapy中的Request对象是用于表示一个HTTP请求的类。以下是一些常见的属性和方法: 属性: url: 请求的URL。 callback: 在响应返回后,将调用的回调函数。 method: 请求方法,默认为'GET'。 headers: 请求头。默认值为None。 cookies: 请求时
阅读全文
摘要:response Scrapy中的`response`对象是一个包含HTTP响应的Python对象,具有以下属性和方法: **属性** url: 响应的URL。 status: 响应的HTTP状态码。 headers: 包含响应头信息的字典。 body: 响应正文的原始二进制数据。 text: 响应
阅读全文
摘要:问题 在挖掘数据时,数据存在于js文件内,所以主要思路就是,把数据提取出来,直接转json格式,通过字典的键索引获取数据。奈何在转json格式的时候一直报错。 报错:Expecting value: line 1 column 2012 (char 1) 我总不能一个一个字符地数吧!! 问题分析 通
阅读全文
摘要:await/async关键字 异步IO(asyncio)协程 python aiohttp的使用 爬虫相关性能(各个异步模块的使用,和自定义异步IO模块) 转载自山上有风景
阅读全文
摘要:前言 在爬爬爬的时候,有些网页的数据并不存在于html中,它们常出现在scrip标签或js文件里面,所有这时候使用xpath就有些不尽人意了。但是,我们可以直接使用re对script的内容进行提取,然后再转json格式,再通过字典索引的方法对数据逐个提取。但是,面对近百万字符的文本,正则的运行速度堪
阅读全文