2019 年 2月 13 日随笔档案 - 贫道从来不吃素

2019年2月13日

摘要：一、分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1.1 分布式爬虫架构 Scrapy 单机爬虫中有一个本地爬取队列Queue 这个队列是利用 dequ 阅读全文

posted @ 2019-02-13 10:57 贫道从来不吃素阅读(1099) 评论(0) 推荐(0) 编辑

python3编写网络爬虫22-爬取知乎用户信息

摘要：思路选定起始人选一个关注数或者粉丝数多的大V作为爬虫起始点获取粉丝和关注列表通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息获取列表每个用户的详细信息获取每个用户的粉丝和关注进一步对列表中的每个用户获取他们的粉丝和关注列表实现递归爬取起始点 https://www.zh 阅读全文

posted @ 2019-02-13 10:52 贫道从来不吃素阅读(986) 评论(0) 推荐(0) 编辑

python3编写网络爬虫21-scrapy框架的使用

摘要：一、scrapy框架的使用前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限对于一些反爬虫程度非常强的网站爬取显得力不从心 1. scrapy框架介绍 scrapy是一个基于Twisted 的异步处理框架是纯pytho 阅读全文

posted @ 2019-02-13 10:40 贫道从来不吃素阅读(584) 评论(0) 推荐(0) 编辑

python3编写网络爬虫20-pyspider框架的使用

摘要：二、pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址：官方文档 pyspider 带有强大的WebUI 脚本编辑器任务监控器项目管理器以及结果处理器支持多种数据库后端多种消息队列 JavaScript渲染页面的爬取使用起阅读全文

posted @ 2019-02-13 10:25 贫道从来不吃素阅读(582) 评论(0) 推荐(0) 编辑

python3编写网络爬虫19-app爬取

摘要：一、app爬取前面都是介绍爬取Web网页的内容，随着移动互联网的发展，越来越多的企业并没有提供Web页面端的服务，而是直接开发了App，更多信息都是通过App展示的 App爬取相比Web端更加容易反爬虫能力没有那么强，而且数据大多数是以JSON形式传递的解析更加简单在Web端我们可以通过浏阅读全文

posted @ 2019-02-13 10:22 贫道从来不吃素阅读(1189) 评论(0) 推荐(0) 编辑

python3编写网络爬虫18-代理池的维护

摘要：一、代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的，都不能保证都是可用的因为可能此IP被其他人使用来爬取同样的目标站点而被封禁或者代理服务器突然故障或者网络繁忙一旦选用了一个不可用的代理，这势必会阅读全文

posted @ 2019-02-13 10:17 贫道从来不吃素阅读(903) 评论(0) 推荐(0) 编辑

贫道从来不吃素

公告