随笔分类 -  爬虫

摘要:上节回顾 # 1 scrapy架构 -爬虫:写的一个个类 -引擎: -调度器:排队,去重 -下载器 -pipline -下载中间件 -爬虫中间件 # 2 命令 -scrapy startproject 项目名 -scrapy gensipder 爬虫名 网址 -scrapy crawl 爬虫名字 - 阅读全文
posted @ 2023-04-17 16:14 Super小赵 阅读(72) 评论(0) 推荐(0) 编辑
摘要:上节回顾 # 1 selenium -登录cnblogs,拿到cookie,再打开cnblogs,写入cookie,它就是登录状态 -半自动点赞 》selenium生成的cookie,给requests用 -selenium操作浏览器,速度慢 -requests速度快 -动作链 -自动登录12306 阅读全文
posted @ 2023-04-17 16:12 Super小赵 阅读(50) 评论(0) 推荐(0) 编辑
摘要:昨日回顾 # 1 beautifulsoup4 使用 -xml解析库,用它来解析爬回来的html内容,从中找出我们需要的内容 # 2 遍历文档树 - . 的使用 soup.html.body.p.a - 获取属性 对象.attrs.get('href') - 获取文本 对象.text string 阅读全文
posted @ 2023-04-17 16:11 Super小赵 阅读(73) 评论(0) 推荐(0) 编辑
摘要:昨日回顾 # 1 request 高级用法 -解析json:发http的请求,返回的数据,可能是xml格式,json格式 request.get().json() -ssl认证 -http和https的区别 https=http+ssl/tsl -http版本区别 0.9:底层基于tcp,每次htt 阅读全文
posted @ 2023-04-17 16:10 Super小赵 阅读(168) 评论(0) 推荐(0) 编辑
摘要:昨日回顾 # 1 爬虫是什么 一个程序 >模拟发送http请求 >从网站,app,小程序 >获取数据 >清洗数据 >入库 # 2 爬虫的核心原理 发送http请求,解析数据 requests模块 re正则 # 3 requests模块 >大神 》基于python内置模块urllib3 》封装 -py 阅读全文
posted @ 2023-04-17 16:08 Super小赵 阅读(153) 评论(0) 推荐(0) 编辑
摘要:今日内容 爬虫介绍 request模块介绍 request发送get请求 request携带参数 url编码解码 携带请求头 发送post请求,携带数据 自动登录,携带cookie的两种方式 requests.session的使用 补充post请求携带数据编码格式 响应Response对象 编码问题 阅读全文
posted @ 2023-04-17 16:07 Super小赵 阅读(263) 评论(0) 推荐(0) 编辑

****************************************** 页脚Html代码 ******************************************
点击右上角即可分享
微信分享提示