摘要: 1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件,是scrapy的扩展;分布式爬虫将多台主机组合起来,共同完成一个爬取任务,快速高效地提高爬取效率。 原先scrapy的请求是放在内存中,从内存中获取。scrapy-redisr将请求统一放在re 阅读全文
posted @ 2022-07-06 11:24 葛老头 阅读(2857) 评论(0) 推荐(2) 编辑
摘要: 背景:瓜子二手车网站制定了一些反爬措施,针对该网站反爬措施,如何爬取我们想要的数据? 前置知识:该项目代码中,引用了urllib的一些方法,对url进行拆分合并,需要了解掌握,可以跳转过去先学习一下:https://blog.csdn.net/liyuanjinglyj/article/detail 阅读全文
posted @ 2022-07-06 11:22 葛老头 阅读(1927) 评论(4) 推荐(0) 编辑
摘要: 反爬虫 反爬虫:限制爬虫程序访问服务器资源和获取数据的行为 限制手段 请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术等 反爬虫的分类 身份识别反爬虫:验证请求头信息、验证请求参数、使用验证码等 爬虫行为反爬虫:对ip进行限制、使用蜜罐获取ip、假数据等 数据加密反爬虫:自定义字体、数 阅读全文
posted @ 2022-07-06 10:08 葛老头 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 前置:是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉,新增图片url变量 image_urls 。注意变量名必须得是这个, 阅读全文
posted @ 2022-07-06 10:05 葛老头 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 该篇笔记的代码是接着上一篇文章中的示例项目接着写的,完善我们的土巴兔爬虫项目 伪装爬虫 - user agent中间件的编写 前置知识:user agent 用户代理(User Agent,简称 UA),是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览 阅读全文
posted @ 2022-07-06 10:04 葛老头 阅读(160) 评论(0) 推荐(0) 编辑