10 2019 档案
摘要:前面介绍了爬取web 网页的内容,随着移动互联网的发展,越来越多的企业直接开发了APP,更多更全的信息都是通过App来展示的。 APP的爬取相比web 端爬取更容易一些,反爬虫能力没有那么强,而且数据大多数是以JSON 形式传输的,解析更加简单。 在web端,我们是通过浏览器的开发者工具监听各个网络
阅读全文
摘要:很多情况下,页面的某些信息需要登录才可以查看。 这里的核心是获取登陆之后的 Cookies 。话不多说,操练起来。 1. 模拟登录并爬取GitHub 1.1 环境准备 requests库 lxml库 1.2 分析登录过程 打开Github的登录页面,https://github.com/login.
阅读全文
摘要:安装Redis 数据库并启动服务 Windows下安装: 下载地址:https://github.com/MSOpenTech/redis/releases 下载之后解压目录如下: 修改redis.windows.conf文件,设置maxmemory 大小 : 设置redis密码 : 启动redis
阅读全文
摘要:目前,许多网站采取各种各样的措施来反爬虫,其中一个措施就是使用验证码。 验证码的花样也越来越多,几个数字组合的简单的图形验证码,英文字母和混淆曲线相结合的方式。大概包括: 普通图形验证码 极验滑动验证码 点触验证码 微博宫格验证码 接下里我们来具体了解一下。 1 图形验证码 图形验证码是最早出现也是
阅读全文
摘要:上一节,学习了Ajax,Ajax 其实也是JS 动态渲染的页面的一种形式,通过直接分析Ajax,仍然可以借助requests 或者 urllib 来实现数据爬取。 但是JS动态渲染的页面不止Ajax 一种;还有就是像淘宝这种页面,即使是Ajax 获取的数据,但是其Ajax 接口含有很多加密参数,我们
阅读全文
摘要:我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样,是因为requests抓取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据都来源有多种可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScr
阅读全文