row_number()函数随机排序
数据准备
-- 建表
CREATE TABLE IF NOT EXISTS TEST01.A
(
ID VARCHAR(50) COMMENT '序号' -- 01
,XID VARCHAR(50) COMMENT '信贷编号' -- 02
,AMT INT COMMENT '数字' -- 03
,DT VARCHAR(50) COMMENT '日期' -- 04
)
COMMENT 'A表'
STORED AS PARQUET
;
-- 插数
INSERT INTO TEST01.A(ID,XID,AMT,DT) VALUES ('1','d0m2e6',462,'20220716');
INSERT INTO TEST01.A(ID,XID,AMT,DT) VALUES ('1','e8a5m0',519,'20220716');
INSERT INTO TEST01.A(ID,XID,AMT,DT) VALUES ('1','g0s7h9',323,'20220715');
-- 查数
SELECT T.ID, T.AMT FROM (
SELECT
ID,XID,AMT,DT
,ROW_NUMBER()OVER(PARTITION BY ID ORDER BY DT DESC) AS RN
FROM TEST01.A
)T
WHERE T.RN = 1
;
row_number()中分组字段不是最细粒度
SELECT
ID,XID,AMT,DT
,ROW_NUMBER()OVER(PARTITION BY ID ORDER BY DT DESC) AS RN
FROM TEST01.A
查询结果
执行查询语句第1次:
执行查询语句第2次:
结果解析
ID与XID是联合主键,row_number()里面只按ID分组,存在同一ID同一DT有多条数据,按DT降序排序会失效,此时函数会对这多条数据随机排出123名,每执行一次脚本,结果会有差异。
如果外层查询是通过限制WHERE RN=1
来取值,那取值结果就会存在随机性。
如何判断row_number()是随机排序
可以用下列方式进行测试:
-- 测试代码
SELECT ID,DT,COUNT(1) FROM TEST01.A GROUP BY 1,2 ORDER BY COUNT(1) DESC;
将分组字段
与排序字段
,分组查询,检查是否有重复值,如果有重复COUNT(1)>1
,那每次跑数就是随机取值的。
解决方案
三方面思考:
- 替换或增加分组字段
- 替换或增加排序字段
- 修改加工逻辑,对于多个取值的情况,如果是数值型,可以采用取最大值或者汇总求和的办法
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2021-07-16 【造数】Python批量生成测试数据