HIVE LEFT JOIN的坑

最近在做一个数据关联处理分析需求，涉及left表right表LEFT JOIN，发现LEFT JOIN后的结果条数比left表的记录多不少。

于是查看结果明细发现最终的结果，不少都是重复的。

最终确定是left 表和right表是一对多的关系，或者说right表有重复的记录也是一样的效果。

于在本地mysql中创建了两个测试表left_join_test和joinids_test测试，如下：

最终结果：

总结：

1、mysql的left join从两个表中联合查询数据，以左表为主，右表为辅。如果左表中有的内容右表中没有，则用null填充，这是大家都很容易理解的。

2、右边有重复数据（多条数据对应左边表一条数据）时，右边的数据会全部保留，导致最终的结果出现重复关联。这时就要根据实际情况把右表的记录去重，比如使用distinct 、group by 等处理，最终结果也可以使用GROUP_CONCAT()、count()等连接聚合函数处理

posted @ 2021-11-25 11:39 xuzhujack 阅读(2814) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· AI与.NET技术实操系列（五）：向量存储与相似性搜索在 .NET 中的实现
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）

公告

昵称： xuzhujack
园龄： 5年10个月
粉丝： 9
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:常见的三大数据湖技术Delta、Hudi、Iceberg对比
您好，请问可以转载吗？
--余额不足2019
2. Re:linux grep 同时搜索多个关键字(或关系)
@abcdefghif 参照如下： xxxxxxx:~ ccccc$ less user.sql | grep "Server" Source Server : xxx.xxx.xx.xx Sourc...
--xuzhujack
3. Re:linux grep 同时搜索多个关键字(或关系)
且的情况使用多个管道就可以了, 比如搜索文件中同时有字符串"aaa" 和"bbb"、"ccc"..... less yp-info.log | grep "aaa" | grep "bbb" | gr...
--xuzhujack
4. Re:mysql on duplicate key update 使用小结
@blablabla123 可以先修改成其它的值，然后再修改回来试试，比如加10W，然后再减10W...
--xuzhujack
5. Re:mysql on duplicate key update 使用小结
我设置字段 userId 为唯一，然后我修改 userId 的值等于它原来的值，也会报错 duplicate ，这个怎么解决呢
--blablabla123

;