表治理-Iceberg过期快照清理

总结

指标
清理前(已优化小文件)
清理后
查询速度 13秒 15秒(波动)
表总大小 26.4G 17.2G
metadata目录文件数 75 42
data目录文件数 1501 602

!!!需要先做小文件合并,然后再做过期快照比较好。

小文件合并:Iceberg小文件合并测试

一、清理任务资源使用情况

1、清理命令(修改时间戳,在这之前的会被清理)

CALL iceberg_catalog.system.expire_snapshots(table => 'data_lake_ods.order_info1', older_than => TIMESTAMP '2023-12-07 10:40:00.000');
CALL iceberg_catalog.system.expire_snapshots(table => 'data_lake_ods.ods_sn_source_leads_data', older_than => TIMESTAMP '2024-01-05');

2、任务运行时间(32秒)

二、清理后文件信息统计

1、查询速度(第一次15秒,第二次6秒大概是goosfs缓存)

2、表总大小(17.2G)

3、单个文件大小例子(单个文件接近60MB)

4、文件数量

hdfs dfs -du -h /user/hive/warehouse/data_lake_ods.db/order_info1/data | wc -l

路径:/user/hive/warehouse/data_lake_ods.db/order_info1/data

文件数:602

路径:/user/hive/warehouse/data_lake_ods.db/order_info1/metadata

文件数:42

 

posted @   Robots2  阅读(378)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 百万级群聊的设计实践
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
点击右上角即可分享
微信分享提示