nifi flowfile文件存储结构分析

nifi flowfile文件存储结构分析

之前的整理的资料找不到了

说结论吧

有些人会担心flowfile是单一的文件存储的,大量的flowfile会导至大量的文件,对文件系统造成较大压力,也影响性能表现

经过源码和实际运行环境验证

flowfile并不是以小文件的格式存储的

而是分块存储的,按大小合并在单个大文件中,文件大小到达上限后,再拆分第二个文件

其实和sql一类数据库的存储类似,不过结构简单很多,数据库大概一个文件块是64M,nifi默认的文件块可以上G

单个文件块例如1G

文件块内会保存多项flowfile文件,不是每flowfile一个小文件

在文件块内以offset区分不同的flowfile,顺序排列,这里又类似kafka

有时间再补详细信息吧,

不像logstash未来也不怎么用了

nifi未然依然会用,但主要的技术积累和调研,插件开发等,大坑小坑已经都搞的差不多,算是半毕业了,足够满足90%以上的场景,估计没这空闲

以后在nifi上的工作,应该是实现一些更复杂的插件,接入更多的数据组件

posted @ 2021-02-28 18:28  cclient  阅读(391)  评论(0编辑  收藏  举报