RICH-ATONE

2020年12月8日 #

Flink线上环境搭建

摘要: Flink 集群搭建(基于flink on YARN模式) Flink HA高可以集群搭建(生产环境Flink Cluster On YARN) 阅读全文

posted @ 2020-12-08 22:39 RICH-ATONE 阅读(206) 评论(0) 推荐(0) 编辑

2020年12月4日 #

数仓及数据治理相关

摘要: 文章参考: 数据治理及元数据概念相关 美团配送数据治理实践 数据埋点相关 读透华为数据之道 数据标准规范参考 数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼? 相关数据治理工具 : nebula graph (图数据库) 作为技术人员还是需要会拆自己的任务,给出工作量评估。给活可以,代 阅读全文

posted @ 2020-12-04 11:30 RICH-ATONE 阅读(399) 评论(0) 推荐(0) 编辑

2020年12月3日 #

Hive动态分区详解及注意的问题

摘要: 设置动静态混合分区报错: FAILED: SemanticException [Error 10094]: Line 1:60 Dynamic partition cannot be the parent of a static partition 'xxx' 注意: 1.当设置动静态分区混合的时候 阅读全文

posted @ 2020-12-03 18:51 RICH-ATONE 阅读(1453) 评论(0) 推荐(0) 编辑

lateral view explode行转列的简单使用

摘要: 示例数据: des字段: 6ab4c|6ab46|6ab47|6ab48|6ab49|6abc0|6abc1|6abc2|6abc3|6abc4|6abcc|6abc6|6abc7type字段: 6df4c|6df46|6df47|6df48|6df49|6dfc0|6dfc1|6dfc2|6dfc 阅读全文

posted @ 2020-12-03 10:50 RICH-ATONE 阅读(739) 评论(0) 推荐(0) 编辑

2020年12月1日 #

MachineLearning

摘要: 机器学习模型训练全流程! 数据从业者的自我修养 阅读全文

posted @ 2020-12-01 15:00 RICH-ATONE 阅读(102) 评论(0) 推荐(0) 编辑

2020年11月30日 #

Garbage In Garbage Out

摘要: 两篇不错的文章: 林家翘先生提醒青年学者:千万不要Garbage in,garbage out 不重视建模,Garbage In Garbage Out而已! 阅读全文

posted @ 2020-11-30 11:41 RICH-ATONE 阅读(225) 评论(0) 推荐(0) 编辑

2020年11月27日 #

JournalNode的作用

摘要: 官方解释: 参考:journalnode的作用 阅读全文

posted @ 2020-11-27 15:38 RICH-ATONE 阅读(524) 评论(0) 推荐(0) 编辑

SecondaryNameNode 的作用

摘要: SecondaryNameNode 的作用 阅读全文

posted @ 2020-11-27 14:52 RICH-ATONE 阅读(139) 评论(0) 推荐(0) 编辑

2020年11月25日 #

Hive Map数据长尾问题

摘要: 个人实践(数据倾斜): 1.当大表join小表时,将小表转化为内存即可,即开启小表优化。 (set hive.auto.convert.join=true;) 2.尽量避免count(distinct xxx)的使用,如果存在重复行,则在子查询中先进行group by去重操作。 (set hive. 阅读全文

posted @ 2020-11-25 18:37 RICH-ATONE 阅读(753) 评论(0) 推荐(0) 编辑

Hive基本操作

摘要: Hive基本操作 阅读全文

posted @ 2020-11-25 17:38 RICH-ATONE 阅读(138) 评论(0) 推荐(0) 编辑

导航