摘要: 模拟登陆 为什么要进行模拟登陆 有些时候,我们需要爬取一些基于个人用户的用户信息(需要登录后才可以查看的) 为什么需要识别验证码 因为验证码往往是作为登录请求中的请求参数被使用 验证码识别:借助于线上的一款打码平台(超级鹰,云打码,打码兔) 超级鹰的使用流程: 注册:注册一个身份的账号 登录:基于 阅读全文
posted @ 2019-06-13 23:08 Yeokrin 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 数据解析 聚焦爬虫:数据解析 数据解析的原理 标签定位 获取标签中的数据 python实现数据解析的方式: 正则 通用性强 编写复杂 不能爬取带标签的文本内容 bs4 可以爬取带标签的文本内容 只能在python中使用 编写简单 xpath 通用性强 编写程度简单 不能爬取带标签的文本内容 pyqu 阅读全文
posted @ 2019-06-13 16:31 Yeokrin 阅读(225) 评论(0) 推荐(0) 编辑