随笔分类 - 爬虫

爬取的数据存mysql中、加代理，cookie，header，加入selenium、布隆过滤器、scrapy-redis实现分布式爬虫

摘要：上节回顾 # 1 scrapy架构 -爬虫：写的一个个类 -引擎： -调度器：排队，去重 -下载器 -pipline -下载中间件 -爬虫中间件 # 2 命令 -scrapy startproject 项目名 -scrapy gensipder 爬虫名网址 -scrapy crawl 爬虫名字 - 阅读全文

posted @ 2023-04-17 16:14 Super小赵阅读(72) 评论(0) 推荐(0) 编辑

scrapy架构介绍、scrapy解析数据、settings相关配置、持久化方案

摘要：上节回顾 # 1 selenium -登录cnblogs，拿到cookie，再打开cnblogs，写入cookie，它就是登录状态 -半自动点赞》selenium生成的cookie，给requests用 -selenium操作浏览器，速度慢 -requests速度快 -动作链 -自动登录12306 阅读全文

posted @ 2023-04-17 16:12 Super小赵阅读(50) 评论(0) 推荐(0) 编辑

selenium登录cnblogs、抽屉半自动点赞、xpath的使用、打码平台使用、scrapy介绍

摘要：昨日回顾 # 1 beautifulsoup4 使用 -xml解析库，用它来解析爬回来的html内容，从中找出我们需要的内容 # 2 遍历文档树 - . 的使用 soup.html.body.p.a - 获取属性对象.attrs.get('href') - 获取文本对象.text string 阅读全文

posted @ 2023-04-17 16:11 Super小赵阅读(73) 评论(0) 推荐(0) 编辑

bs4介绍，遍历文档树、搜索文档树、css选择器、selenium基本使用、selenium其他用法

摘要：昨日回顾 # 1 request 高级用法 -解析json：发http的请求，返回的数据，可能是xml格式，json格式 request.get().json() -ssl认证 -http和https的区别 https=http+ssl/tsl -http版本区别 0.9：底层基于tcp，每次htt 阅读全文

posted @ 2023-04-17 16:10 Super小赵阅读(168) 评论(0) 推荐(0) 编辑

requests高级用法、代理池搭建、爬取案例

摘要：昨日回顾 # 1 爬虫是什么一个程序 >模拟发送http请求 >从网站，app，小程序 >获取数据 >清洗数据 >入库 # 2 爬虫的核心原理发送http请求，解析数据 requests模块 re正则 # 3 requests模块 >大神》基于python内置模块urllib3 》封装 -py 阅读全文

posted @ 2023-04-17 16:08 Super小赵阅读(153) 评论(0) 推荐(0) 编辑

爬虫介绍、request模块、自动登录、携带cookie的两种方式、requests.session的使用、响应Response对象

摘要：今日内容爬虫介绍 request模块介绍 request发送get请求 request携带参数 url编码解码携带请求头发送post请求，携带数据自动登录，携带cookie的两种方式 requests.session的使用补充post请求携带数据编码格式响应Response对象编码问题阅读全文

posted @ 2023-04-17 16:07 Super小赵阅读(263) 评论(0) 推荐(0) 编辑