表治理-Iceberg过期快照清理
总结
指标
|
清理前(已优化小文件)
|
清理后
|
---|---|---|
查询速度 | 13秒 | 15秒(波动) |
表总大小 | 26.4G | 17.2G |
metadata目录文件数 | 75 | 42 |
data目录文件数 | 1501 | 602 |
!!!需要先做小文件合并,然后再做过期快照比较好。
小文件合并:Iceberg小文件合并测试
一、清理任务资源使用情况
1、清理命令(修改时间戳,在这之前的会被清理)
CALL iceberg_catalog.system.expire_snapshots(table => 'data_lake_ods.order_info1', older_than => TIMESTAMP '2023-12-07 10:40:00.000');
CALL iceberg_catalog.system.expire_snapshots(table => 'data_lake_ods.ods_sn_source_leads_data', older_than => TIMESTAMP '2024-01-05');
2、任务运行时间(32秒)
二、清理后文件信息统计
1、查询速度(第一次15秒,第二次6秒大概是goosfs缓存)
2、表总大小(17.2G)
3、单个文件大小例子(单个文件接近60MB)
4、文件数量
hdfs dfs -du -h /user/hive/warehouse/data_lake_ods.db/order_info1/data | wc -l
路径:/user/hive/warehouse/data_lake_ods.db/order_info1/data
文件数:602
路径:/user/hive/warehouse/data_lake_ods.db/order_info1/metadata
文件数:42
· 百万级群聊的设计实践
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期