03 2023 档案

Scrapy中Request对象的属性和方法

摘要：Scrapy中的Request对象是用于表示一个HTTP请求的类。以下是一些常见的属性和方法：属性： url: 请求的URL。 callback: 在响应返回后，将调用的回调函数。 method: 请求方法，默认为'GET'。 headers: 请求头。默认值为None。 cookies: 请求时阅读全文

posted @ 2023-03-16 11:42 Rev_RoastDuck 阅读(104) 评论(0) 推荐(0) 编辑

Scrapy中的response对象的属性及方法，附加mate属性的使用方法

摘要：response Scrapy中的`response`对象是一个包含HTTP响应的Python对象，具有以下属性和方法： **属性** url: 响应的URL。 status: 响应的HTTP状态码。 headers: 包含响应头信息的字典。 body: 响应正文的原始二进制数据。 text: 响应阅读全文

posted @ 2023-03-16 11:29 Rev_RoastDuck 阅读(207) 评论(0) 推荐(0) 编辑

python奇葩反爬-你是故意的还是不小心的

摘要：问题在挖掘数据时，数据存在于js文件内，所以主要思路就是，把数据提取出来，直接转json格式，通过字典的键索引获取数据。奈何在转json格式的时候一直报错。报错：Expecting value: line 1 column 2012 (char 1) 我总不能一个一个字符地数吧！！问题分析通阅读全文

posted @ 2023-03-07 13:34 Rev_RoastDuck 阅读(92) 评论(0) 推荐(0) 编辑

asyncio教程

摘要：await/async关键字异步IO(asyncio)协程 python aiohttp的使用爬虫相关性能（各个异步模块的使用，和自定义异步IO模块）转载自山上有风景阅读全文

posted @ 2023-03-06 13:17 Rev_RoastDuck 编辑

正则解析提速方案_爬虫

摘要：前言在爬爬爬的时候，有些网页的数据并不存在于html中，它们常出现在scrip标签或js文件里面，所有这时候使用xpath就有些不尽人意了。但是，我们可以直接使用re对script的内容进行提取，然后再转json格式，再通过字典索引的方法对数据逐个提取。但是，面对近百万字符的文本，正则的运行速度堪阅读全文

posted @ 2023-03-06 08:15 Rev_RoastDuck 阅读(81) 评论(0) 推荐(0) 编辑

公告

昵称： Rev_RoastDuck
园龄： 2年1个月
粉丝： 0
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

Rev-RoastDuck

03 2023 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜