10.5

存储格式:

textfile(不做处理, 行式存储)
sequence file(二进制格式, 占内存比textfile略小些)
orc(自带略微压缩, 列式存储)
parquet(自带略微压缩, 列式存储), 像.docx, 没有被7zip压缩照样自带压缩

在不额外lzo或者snappy压缩时, 三者查询效率差不多(当然还是没自带压缩的textfile快), 但是存储效率ORC最高占存储空间少

lzo可以额外建立索引文件使之能切片, 而snappy不能切片, 但是可以人为控制文件输出的大小, 生成snappy文件时使每个snappy不超过128M之类的

不使用额外压缩, 就把额外描述的压缩参数设为None

MR最好采用orc存储格式

Spark自身对parquet优化, 最好用parquet存储格式

orc和parquet文件存储结构都差不多, 都是先分行组, 行组内再列式存储(这一列存完了, 再存下一列)

ads层 hive导出到mysql时, 用的是hdfs文件不走hive, 故采用原格式textfile
46

posted @ 2023-10-05 19:13 秋渡晚枫阅读(23) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 日报数据库

· 11.26

· 数据存储与压缩问题

· hive存储格式

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统

昵称：秋渡晚枫
园龄： 2年8个月
粉丝： 4
关注： 8

2025年3月

日

一

二

三

四

五

六