2022 年 7月 6 日随笔档案 - 葛老头

2022年7月6日

摘要： 1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件，是scrapy的扩展；分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。原先scrapy的请求是放在内存中，从内存中获取。scrapy-redisr将请求统一放在re 阅读全文

posted @ 2022-07-06 11:24 葛老头阅读(2857) 评论(0) 推荐(2) 编辑

爬虫（13） - 反爬虫(2) | 项目示例-爬取瓜子二手车网站数据

摘要：背景：瓜子二手车网站制定了一些反爬措施，针对该网站反爬措施，如何爬取我们想要的数据？前置知识：该项目代码中，引用了urllib的一些方法，对url进行拆分合并，需要了解掌握，可以跳转过去先学习一下：https://blog.csdn.net/liyuanjinglyj/article/detail 阅读全文

posted @ 2022-07-06 11:22 葛老头阅读(1927) 评论(4) 推荐(0) 编辑

爬虫（12） - 反爬虫(1) | 详解

摘要：反爬虫反爬虫：限制爬虫程序访问服务器资源和获取数据的行为限制手段请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术等反爬虫的分类身份识别反爬虫：验证请求头信息、验证请求参数、使用验证码等爬虫行为反爬虫：对ip进行限制、使用蜜罐获取ip、假数据等数据加密反爬虫：自定义字体、数阅读全文

posted @ 2022-07-06 10:08 葛老头阅读(519) 评论(0) 推荐(0) 编辑

爬虫（11） - Scrapy框架(3) | 示例项目抓取并下载网站图片

摘要：前置：是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉，新增图片url变量 image_urls 。注意变量名必须得是这个，阅读全文

posted @ 2022-07-06 10:05 葛老头阅读(235) 评论(0) 推荐(0) 编辑

爬虫（10） - Scrapy框架(2) | 伪装爬虫

摘要：该篇笔记的代码是接着上一篇文章中的示例项目接着写的，完善我们的土巴兔爬虫项目伪装爬虫 - user agent中间件的编写前置知识：user agent 用户代理（User Agent，简称 UA），是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览阅读全文

posted @ 2022-07-06 10:04 葛老头阅读(160) 评论(0) 推荐(0) 编辑

葛老头

公告