collect_list 和 collect_set 有什么区别？

collect_list 和 collect_set 是 Hive 中用于聚合数据的两个常用函数，它们的主要区别在于是否去除重复值以及结果的顺序性。以下是它们的详细对比：

collect_list：
- 功能：将指定列的所有值（包括重复值）收集到一个数组中。
- 特点：保留所有值，不进行去重，结果数组中的值按照原始数据的顺序排列。
collect_set：
- 功能：将指定列的值收集到一个数组中，并自动去除重复值。
- 特点：返回唯一值的集合，结果数组中的值顺序是不确定的。

假设有一个表 orders，包含以下列：

数据如下：

sql复制

SELECT customer_id, collect_list(product) AS products
FROM orders
GROUP BY customer_id;

结果：

customer_id	products
101	["iPhone", "iPhone", "MacBook Pro"]
102	["iPad", "iPad"]

sql复制

SELECT customer_id, collect_set(product) AS products
FROM orders
GROUP BY customer_id;

结果：

customer_id	products
101	["iPhone", "MacBook Pro"]
102	["iPad"]

posted on 2025-02-25 19:43 ExplorerMan 阅读(1647) 评论(0) 收藏举报

刷新页面返回顶部

ExplorerMan