Rannie` - 博客园

2020年4月14日

摘要： Paramiko 远程连接通过 ssh 远程链接服务器并执行响应的操作，类似于 XShell ansible 批量管理服务器工具，底层用的就是 paramiko 模块安装基本使用远程链接服务器的方式用户名和密码公钥私钥的方式执行命令用户名和密码方式公钥私钥的方式上传下载文件如果阅读全文

posted @ 2020-04-14 15:42 Rannie` 阅读(164) 评论(0) 推荐(0)

Django 基于channels实现群聊功能

摘要： Django 基于channels实现群聊功能后端框架 django 默认不支持 websocket 第三方模块: channels flask 默认不支持 websocket 第三方模块: geventwebsocket tornado 默认支持 websocket 下载 channel s模块阅读全文

posted @ 2020-04-14 15:32 Rannie` 阅读(1394) 评论(0) 推荐(0)

gojs 插件

摘要： gojs 插件是一个前端插件，跟 go 和 js 没有半毛钱关系主要可以通过代码动态的生成和修改图表数据(组织架构图，执行流程图等等) 网址: 如果你想使用，需要下载他的文件目前需要我们了解的文件其实只有三个，用得到的只有两个基本使用 gojs 使用基本套路是先在页面上写一个 div 站地方阅读全文

posted @ 2020-04-14 15:15 Rannie` 阅读(270) 评论(0) 推荐(0)

2020年4月13日

WebSocket 实现服务端给客户端推送消息

摘要： [TOC] 代码发布服务端主动给客户端推送消息截至目前为止，我们所写的 web 项目基本都是基于 HTTP 协议的 "HTTP 协议有四大特性" :无链接基于 HTTP 协议实现服务端主动给客户端推送消息好像有点麻烦～～～我们都经历过，浏览器打开一个网站不动，网站过一会儿自动弹出消息再比如阅读全文

posted @ 2020-04-13 16:31 Rannie` 阅读(5490) 评论(0) 推荐(0)

2020年4月12日

scrapy 集成 selenium

摘要：在爬虫已启动，就打开一个 chrom 浏览器，以后都用这一个浏览器来爬数据 1 在爬虫中创建 bro 对象在 middlewares.py 中定义一个 class: spider中的代码：下载中间件使用把 selenium 集成到 scrapy 中主要改变的就是这两处地方以上的在 scrap 阅读全文

posted @ 2020-04-12 19:43 Rannie` 阅读(340) 评论(0) 推荐(0)

scrapy 分布式爬虫

摘要： [TOC] 介绍原来 scrapy 的 Scheduler 维护的是本机的任务队列（存放 Request 对象及其回调函数等信息）+ 本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如 Redis，然后重写 Scrapy 的 Sche 阅读全文

posted @ 2020-04-12 18:29 Rannie` 阅读(230) 评论(0) 推荐(0)

crapy 去重与 scrapy_redis 去重与布隆过滤器

摘要： [TOC] 在开始介绍 scrapy 的去重之前，先想想我们是怎么对 requests 对去重的。 requests 只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列，判断抓取的 url 是否在其中，如此时的集合是保存在内存中的，随着爬虫抓取内容变多，阅读全文

posted @ 2020-04-12 17:54 Rannie` 阅读(456) 评论(0) 推荐(0)

2020年4月11日

scrapy 中间件

摘要： [TOC] 下载中间件(Downloader Middleware) 下载器中间件是介于 Scrapy 的 request/response 处理的钩子框架。是用于全局修改 Scrapy request 和r esponse 的一个轻量、底层的系统这个介绍看起来非常绕口，但其实用容易理解的话表述阅读全文

posted @ 2020-04-11 21:34 Rannie` 阅读(451) 评论(0) 推荐(0)

cnblogs 博客爬取 + scrapy + 持久化 + 分布式

摘要： [TOC] cnblogs_spider.py 普通 scrapy piplines.py 分布式爬取 cnblogs_spider.py settings.py 阅读全文

posted @ 2020-04-11 19:18 Rannie` 阅读(217) 评论(0) 推荐(0)

2020年4月10日

Scrapy

摘要： [TOC] Scrapy Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中安装 mac,linux 平台：pip3 install scrapy windows 平台：pip3 install scrapy 如果阅读全文

posted @ 2020-04-10 16:52 Rannie` 阅读(261) 评论(0) 推荐(0)

公告