TOP
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 33 下一页
摘要: Python操作Redis 安装 链接方式 简单连接 redis-py提供两个类Redis和StrictRedis用于实现Redis的命令,StrictRedis用于实现大部分官方的命令,并使用官方的语法和命令,Redis是StrictRedis的子类,用于向后兼容旧版本的redis-py。 连接池 阅读全文
posted @ 2019-02-12 05:42 羊驼之歌 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 安装 linxu安装 方式一:硬盘免安装 启动服务端 启动客户端 方式二:安装包 方式三:rpm安装 公司说你安装以下redis 有两种情况: 1、直接给你rpm包 2、或者说你直接yum install redis - 安装公司自定制 - 安装官方 远程操作rdis的模块(模块的本质是通过sock 阅读全文
posted @ 2019-02-11 08:13 羊驼之歌 阅读(228) 评论(0) 推荐(0) 编辑
摘要: websocket 概念 是一套协议,协议规定了: - 连接时需要握手 - 发送数据进行加密 - 连接之后不断开 意义 实现长轮询等操作 框架支持 - flask,gevent-websocket - django,channel - torando框架自带 应用场景 实时响应页面时,可以使用web 阅读全文
posted @ 2019-02-11 07:28 羊驼之歌 阅读(1053) 评论(0) 推荐(0) 编辑
摘要: 高性能相关 如何实现多个任务的同时进行 而且还效率高 串行实现 效率最低最不可取 多线程 多线程存在线程利用率不高的问题 协程+IO切换 gevent内部调用greenlet(实现了协程) 基于协程比线程更加省资源 事件循环 基于事件循环的异步非阻塞模块:Twisted 阅读全文
posted @ 2019-02-11 06:52 羊驼之歌 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫 概念 所谓分布式, 多个程序同时对一个任务进行操作 一分多的高效率的任务进行方式 简单说明 一个 10GB 的爬虫任务, 交给10台服务器进行同时爬取 对比单服务器无论怎么优化都是 10倍的效率, 但是成本高 需要硬件环境支持 ( 带宽, 服务器设备等 ) 多态主机共享一个爬取队列即为分 阅读全文
posted @ 2019-02-11 06:40 羊驼之歌 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 配置文件 基本配置 并发与延迟 智能限速/自动节流 介绍 设置目标 1、比使用默认的下载延迟对站点更好 2、自动调整scrapy到最佳的爬取速度,所以用户无需自己调整下载延迟到最佳状态。用户只需要定义允许最大并发的请求,剩下的事情由该扩展组件自动完成 如何实现 在Scrapy中,下载延迟是通过计算建 阅读全文
posted @ 2019-02-10 03:22 羊驼之歌 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 中间件 下载器中间件 写中间件 配置文件 执行顺序梳理 应用场景 - 随机 User-Agent 开源的组件 导入 配置文件中设置选择方式 根据配置文件中的选择方式设置模式 应用场景 - IP代理 写个脚本完成对 西刺代理IP的爬虫 并存入数据库 设置中间件来调用脚本设置代理 IP 爬虫中间件 写中 阅读全文
posted @ 2019-02-10 03:01 羊驼之歌 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 持久化相关 相关文件 items.py 数据结构模板文件。定义数据属性。 pipelines.py 管道文件。接收数据(items),进行持久化操作。 持久化流程 ▨ 爬虫文件爬取到数据后,将数据封装到 items 对象 ▨ items.py 用 yield 关键字将 items对象 提交给 pip 阅读全文
posted @ 2019-02-10 02:10 羊驼之歌 阅读(192) 评论(0) 推荐(0) 编辑
摘要: BeatifulSoup 模块 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 安装 解析器下载 解析器 下表列出了主要的解析器,以及它们的优缺点, 官网推荐使用 lxml 作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3 阅读全文
posted @ 2019-02-10 01:27 羊驼之歌 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 简单爬虫示例 爬取抽屉,以及自动登陆抽屉点赞 先查看首页拿到cookie,然后登陆要携带首页拿到的 cookie 才可以通过验证 爬取拉勾网 请求头中存在自定义的验证字段,要想办法拿到才可以正确爬取,以及 Referer 的使用 自动登陆GitHub scrf_token 的验证 总结 请求头: 特 阅读全文
posted @ 2019-02-10 01:06 羊驼之歌 阅读(772) 评论(0) 推荐(0) 编辑
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 33 下一页