随笔分类 -  数仓

数据仓库建设相关方法论
摘要:##使用“二次聚合”的思想 ##1.离线数据 Hive 、MR、 SPARK 1.1 场景描述 以MR为例,目前有p1 和 p2 两个分区, p1分区内有1亿条数据,key值为a ,p2分区内有一万条数据,key值为b ###1.2 解决思路 以SQL为例 首先,为key加上随机数,进行一次分区, 阅读全文 »
posted @ 2022-02-06 20:48 Later^^ 阅读(81) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示