摘要:
10.4 数据倾斜 1.数据倾斜现象: 绝大多数任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败。 2.数据过量现象: 数据过量的表现为所有任务都执行的很慢,这个时候只有提高执行资源才可以优化HQL的执行效率。 3. 数据倾斜的原因: 导致倾斜的原因在于按照key分组后,少量的任务 阅读全文
摘要:
在 Hive 中,使用 `LATERAL VIEW` 可以实现行转列的操作,通常与 `explode` 函数结合使用。下面是一个示例,展示如何通过 `LATERAL VIEW` 将行转为列。 ### 示例场景 假设我们有一个名为 `movies` 的表,包含影视作品及其类型,类型是以逗号分隔的字符串 阅读全文
摘要:
在 SQL 中,`FULL JOIN` 和 `UNION ALL` 是两种不同的操作,它们的结果也有显著的区别。 ### FULL JOIN`FULL JOIN`(全外连接)会返回两张表中所有的记录。对于没有匹配的记录,结果中会用 `NULL` 填充缺失的部分。具体来说: - 如果表 A 和表 B 阅读全文