随笔分类 - 爬虫
摘要:上节回顾 # 1 scrapy架构 -爬虫:写的一个个类 -引擎: -调度器:排队,去重 -下载器 -pipline -下载中间件 -爬虫中间件 # 2 命令 -scrapy startproject 项目名 -scrapy gensipder 爬虫名 网址 -scrapy crawl 爬虫名字 -
阅读全文
摘要:上节回顾 # 1 selenium -登录cnblogs,拿到cookie,再打开cnblogs,写入cookie,它就是登录状态 -半自动点赞 》selenium生成的cookie,给requests用 -selenium操作浏览器,速度慢 -requests速度快 -动作链 -自动登录12306
阅读全文
摘要:昨日回顾 # 1 beautifulsoup4 使用 -xml解析库,用它来解析爬回来的html内容,从中找出我们需要的内容 # 2 遍历文档树 - . 的使用 soup.html.body.p.a - 获取属性 对象.attrs.get('href') - 获取文本 对象.text string
阅读全文
摘要:昨日回顾 # 1 request 高级用法 -解析json:发http的请求,返回的数据,可能是xml格式,json格式 request.get().json() -ssl认证 -http和https的区别 https=http+ssl/tsl -http版本区别 0.9:底层基于tcp,每次htt
阅读全文
摘要:昨日回顾 # 1 爬虫是什么 一个程序 >模拟发送http请求 >从网站,app,小程序 >获取数据 >清洗数据 >入库 # 2 爬虫的核心原理 发送http请求,解析数据 requests模块 re正则 # 3 requests模块 >大神 》基于python内置模块urllib3 》封装 -py
阅读全文
摘要:今日内容 爬虫介绍 request模块介绍 request发送get请求 request携带参数 url编码解码 携带请求头 发送post请求,携带数据 自动登录,携带cookie的两种方式 requests.session的使用 补充post请求携带数据编码格式 响应Response对象 编码问题
阅读全文