06 2019 档案
摘要:1.前言 hdfs , Hadoop Distributed File System。Hadoop的分布式文件系统,安全行和扩展性没得说。 访问HDFS的方式有以下几种: 使用python访问HDFS比较容易: python 封装FS Shell, 这种方式本地必须部署了Hadoop 的 FS Sh
阅读全文
摘要:最近在 HUE 里面查询有中文字段相关的东西被报错警告。。。 通过调整 HUE 使用的某些元数据表的表编码来解决这个问题: 在书写在 MySQL 中能使用的语句的时候还遇到一些无法直接在 hive 或者 presto 中运行的兼容性问题。 例如: presto 可以运行的版本 hive 可以运行个的
阅读全文
摘要:Kafka 真是一个异常稳定的组件,服务器上我们部署了 kafka_2.11-1.0.1 版本的 kafka 除了几次计算时间太长触发了 rebalance 以外,基本没有处理过什么奇怪的问题。 但是还是感觉 Kafka 的配置非常全面非常多,也非常容易把人搞懵逼。有时候看官方文档也就是一句话,经常
阅读全文
摘要:表 1、重命名表重命名表的语句如下: 2、修改表属性: 3、修改表注释: 列 1、添加列 2、修改列 分区 1、增加分区 2、删除分区 Reference: https://www.jianshu.com/p/9088fe002e2a Hive 修改table、column
阅读全文
摘要:一直在调研一个轻量级开源的 BI 系统。之前我们生产环境使用的 aliyun 的 QuickBi,也调研了另外一个 airflow 的开源商业智能 superset。不得不承认 QuickBI 正在日益完善变得好用,但是因其重量级,不灵活,支持数据源单一(比如普通版本只支持 自建 MySQL | R
阅读全文