Druid 加载 Kafka 流数据配置可以读取和处理的流中数据格式

Kafka 索引服务(indexing service)支持 inputFormat 和 parser 来指定特定的数据格式。

inputFormat 是一个较新的参数,针对使用的 Kafka 索引服务,我们建议你对这个数据格式参数字段进行设置。 不幸的是,目前还不能支持所有在老的 parser 中能够支持的数据格式(Druid 将会在后续的版本中提供支持)。

目前 inputFormat 能够支持的数据格式包括有: csv, delimited, json

如果你使用 parser 的话,你也可以阅读: avro_streamprotobufthrift 数据格式。

 

 

因为 Druid 的数据版本的更新,在老的环境下,如果使用 parser 能够处理更多的数格式。

如果通过配置文件来定义的话,在目前只能处理比较少的数据格式。

在我们的系统中,通常将数据格式定义为 JSON 格式,但是因为 JSON 的数据是不压缩的,通常会导致传输数据量增加很多。

 

 

如果你想使用 protobuf 的数据格式的话,能够在 Kafka 中传递更多的内容,protobuf 是压缩的数据传输,占用网络带宽更小。

在小型系统中可能不一定会有太大的问题,但是对于大型系统来说,如果传输量小 80% 的话,那占用网络代码也会小很多,另外也能降低错误率。

 

https://www.ossez.com/t/druid-kafka/13666

posted @   huyuchengus  阅读(94)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
历史上的今天:
2019-08-10 MessagePack Java Jackson Dataformat 在 Map 中不使用 String 为 Key 的序列化
2019-08-10 MessagePack Java Jackson Dataformat 不使用 str8 数据类型的序列化
2019-08-10 MessagePack Java Jackson 在不关闭输入流(input stream)的情况下反序列化多变量
2019-08-10 MessagePack Java Jackson 在不关闭输出流(output stream)的情况下序列化多变量
2019-08-10 MessagePack Java Jackson 序列化和反序列化 POJO 为 MessagePack 的数组类型用来与 msgpack-java:0.6 保持兼容性
2019-08-10 MessagePack Java Jackson Dataformat - Map 的序列化和反序列化
2018-08-10 使用 mod_rewrite 来修改 Confluence 6 的 URLs
点击右上角即可分享
微信分享提示