贫道从来不吃素

2019年2月13日

摘要：一、分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1.1 分布式爬虫架构 Scrapy 单机爬虫中有一个本地爬取队列Queue 这个队列是利用 dequ 阅读全文

posted @ 2019-02-13 10:57 贫道从来不吃素阅读(1136) 评论(0) 推荐(0)

python3编写网络爬虫22-爬取知乎用户信息

摘要：思路选定起始人选一个关注数或者粉丝数多的大V作为爬虫起始点获取粉丝和关注列表通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息获取列表每个用户的详细信息获取每个用户的粉丝和关注进一步对列表中的每个用户获取他们的粉丝和关注列表实现递归爬取起始点 https://www.zh 阅读全文

posted @ 2019-02-13 10:52 贫道从来不吃素阅读(1017) 评论(0) 推荐(0)

python3编写网络爬虫21-scrapy框架的使用

摘要：一、scrapy框架的使用前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限对于一些反爬虫程度非常强的网站爬取显得力不从心 1. scrapy框架介绍 scrapy是一个基于Twisted 的异步处理框架是纯pytho 阅读全文

posted @ 2019-02-13 10:40 贫道从来不吃素阅读(629) 评论(0) 推荐(0)

python3编写网络爬虫20-pyspider框架的使用

摘要：二、pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址：官方文档 pyspider 带有强大的WebUI 脚本编辑器任务监控器项目管理器以及结果处理器支持多种数据库后端多种消息队列 JavaScript渲染页面的爬取使用起阅读全文

posted @ 2019-02-13 10:25 贫道从来不吃素阅读(638) 评论(0) 推荐(0)

python3编写网络爬虫19-app爬取

摘要：一、app爬取前面都是介绍爬取Web网页的内容，随着移动互联网的发展，越来越多的企业并没有提供Web页面端的服务，而是直接开发了App，更多信息都是通过App展示的 App爬取相比Web端更加容易反爬虫能力没有那么强，而且数据大多数是以JSON形式传递的解析更加简单在Web端我们可以通过浏阅读全文

posted @ 2019-02-13 10:22 贫道从来不吃素阅读(1227) 评论(0) 推荐(0)

python3编写网络爬虫18-代理池的维护

摘要：一、代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的，都不能保证都是可用的因为可能此IP被其他人使用来爬取同样的目标站点而被封禁或者代理服务器突然故障或者网络繁忙一旦选用了一个不可用的代理，这势必会阅读全文

posted @ 2019-02-13 10:17 贫道从来不吃素阅读(941) 评论(0) 推荐(0)

2019年2月12日

python3编写网络爬虫17-验证码识别

摘要：一、验证码识别 1.图形验证码的识别识别图形验证码需要 tesserocr 库 OCR技术识别（光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。）例如中国知网注册页面 http://my.cnki.net/elibregister/commonRegister.aspxt 阅读全文

posted @ 2019-02-12 17:31 贫道从来不吃素阅读(1726) 评论(0) 推荐(0)

python3编写网络爬虫16-使用selenium 爬取淘宝商品信息

摘要：一、使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据，但是并不是所有页面都可以通过分析Ajax来完成抓取。比如，淘宝，它的整个页面数据确实也是通过Ajax获取的，但是这些Ajax接口参数比较复杂，可能会包含加密密钥等，所以如果想自己构造Ajax参数阅读全文

posted @ 2019-02-12 17:09 贫道从来不吃素阅读(650) 评论(0) 推荐(0)

python3编写网络爬虫15-Splash的使用

摘要： Splash是一个JavaScript渲染服务是一个带有HTTP API的轻量级浏览器同时对接了python的Twisted 和QT库利用它可以实现对动态渲染页面的抓取功能介绍安装准备 1.Docker的安装 (后面讲到时会详细讲这里先安装) windows下安装： win10 64位阅读全文

posted @ 2019-02-12 09:58 贫道从来不吃素阅读(1487) 评论(0) 推荐(0)

python3编写网络爬虫14-动态渲染页面爬取

摘要：一、动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式，这其实也是JavaScript动态渲染页面的一种情形，通过直接分析Ajax，借助requests和urllib实现数据爬取但是javaScript动态渲染布置Ajax一种例如中国青年网（http://news.youth.cn/gn/ 阅读全文

posted @ 2019-02-12 09:37 贫道从来不吃素阅读(2990) 评论(0) 推荐(0)

贫道从来不吃素

公告