06 2019 档案

摘要:1.前言 hdfs , Hadoop Distributed File System。Hadoop的分布式文件系统,安全行和扩展性没得说。 访问HDFS的方式有以下几种: 使用python访问HDFS比较容易: python 封装FS Shell, 这种方式本地必须部署了Hadoop 的 FS Sh 阅读全文
posted @ 2019-06-25 11:36 piperck 阅读(4208) 评论(0) 推荐(0) 编辑
摘要:最近在 HUE 里面查询有中文字段相关的东西被报错警告。。。 通过调整 HUE 使用的某些元数据表的表编码来解决这个问题: 在书写在 MySQL 中能使用的语句的时候还遇到一些无法直接在 hive 或者 presto 中运行的兼容性问题。 例如: presto 可以运行的版本 hive 可以运行个的 阅读全文
posted @ 2019-06-19 18:38 piperck 阅读(1105) 评论(0) 推荐(0) 编辑
摘要:Kafka 真是一个异常稳定的组件,服务器上我们部署了 kafka_2.11-1.0.1 版本的 kafka 除了几次计算时间太长触发了 rebalance 以外,基本没有处理过什么奇怪的问题。 但是还是感觉 Kafka 的配置非常全面非常多,也非常容易把人搞懵逼。有时候看官方文档也就是一句话,经常 阅读全文
posted @ 2019-06-18 19:44 piperck 阅读(1586) 评论(0) 推荐(0) 编辑
摘要:表 1、重命名表重命名表的语句如下: 2、修改表属性: 3、修改表注释: 列 1、添加列 2、修改列 分区 1、增加分区 2、删除分区 Reference: https://www.jianshu.com/p/9088fe002e2a Hive 修改table、column 阅读全文
posted @ 2019-06-13 18:15 piperck 阅读(8618) 评论(0) 推荐(0) 编辑
摘要:一直在调研一个轻量级开源的 BI 系统。之前我们生产环境使用的 aliyun 的 QuickBi,也调研了另外一个 airflow 的开源商业智能 superset。不得不承认 QuickBI 正在日益完善变得好用,但是因其重量级,不灵活,支持数据源单一(比如普通版本只支持 自建 MySQL | R 阅读全文
posted @ 2019-06-03 17:16 piperck 阅读(7303) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示