摘要: 本人亲测可用 目录 安装前准备 安装过程 机器配置 腾讯云服务器 ubuntu server 16.10 1.首先要在服务器上安装gui及相关依赖 sudo apt get install ubuntu desktop sudo ln s /lib64/x86_64 linux gnu/libc.s 阅读全文
posted @ 2018-11-12 17:20 cutd 阅读(7131) 评论(0) 推荐(0) 编辑
摘要: 简单聊聊Storm的流分组策略 首先我要强调的是,Storm的分组策略对结果有着直接的影响,不同的分组的结果一定是不一样的。其次,不同的分组策略对资源的利用也是有着非常大的不同,本文主要讲一讲localOrShuffle这个分组对资源利用的重大改善。最后,不同的分组对项目的逻辑也起着至关重要的决定, 阅读全文
posted @ 2017-04-20 18:22 cutd 阅读(3451) 评论(0) 推荐(0) 编辑
摘要: 写在前面的话 本人长期关注数据挖掘与机器学习相关前沿研究。欢迎和我交流。 我自己测试了一下这个版本,总的来说更加稳定,新增的特性并没有一一测试,仅凭kafk client来说,是达到了生产环境的使用。 使用阿里云服务器的话,使用清华的节点下载是巨快的。(http://mirrors.tuna.tsi 阅读全文
posted @ 2017-03-31 20:13 cutd 阅读(4922) 评论(0) 推荐(0) 编辑
摘要: Spark结构式流编程指南 概览 Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使 阅读全文
posted @ 2017-03-20 17:13 cutd 阅读(6459) 评论(1) 推荐(4) 编辑
摘要: Unsupported major.minor version 52.0错误一般是因为应用程序需要JDK8而ubuntu默认的是jdk7,所以需要切换到jdk8才能解决这个问题。 由于无法直接从oracle下载二进制文件,所以本文使用PPA方式安装。 添加PPA 安装java安装器 验证是否安装成功 阅读全文
posted @ 2017-02-09 16:55 cutd 阅读(2330) 评论(0) 推荐(0) 编辑
摘要: Linux ubuntu 中文设置最佳实践。亲测最简洁最方便。 阅读全文
posted @ 2017-01-25 14:58 cutd 阅读(2916) 评论(0) 推荐(0) 编辑
摘要: postgresql 设置只读用户 ` CREATE USER readonly WITH ENCRYPTED PASSWORD 'ropass'; alter user readonly set default_transaction_read_only=on; GRANT USAGE ON SC 阅读全文
posted @ 2017-01-07 12:35 cutd 阅读(2597) 评论(0) 推荐(0) 编辑
摘要: postgresql pgsql最新版安装指南及数据存储路径更改及主从配置 安装指南 1. 首先在apt的list添加你当前系统版本对应的apt列表 目前官网有16.04,14.04,12.04 分别对应下面的xenial,xenial,precise 根据对应系统复制下面的repo到pgdg.li 阅读全文
posted @ 2017-01-06 14:17 cutd 阅读(1625) 评论(0) 推荐(0) 编辑
摘要: scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目。 settings:在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定。 runspider:在未创 阅读全文
posted @ 2016-12-21 19:41 cutd 阅读(6893) 评论(1) 推荐(1) 编辑
摘要: Storm Windowing 简介 Storm可同时处理窗口内的所有tuple。窗口可以从时间或数量上来划分,由如下两个因素决定: 窗口的长度,可以是时间间隔或Tuple数量; 滑动间隔(sliding Interval),可以是时间间隔或Tuple数量; 要确保topo的过期时间大于窗口的大小加 阅读全文
posted @ 2016-12-16 20:35 cutd 阅读(4914) 评论(1) 推荐(0) 编辑