nifi flowfile文件存储结构分析
nifi flowfile文件存储结构分析
之前的整理的资料找不到了
说结论吧
有些人会担心flowfile是单一的文件存储的,大量的flowfile会导至大量的文件,对文件系统造成较大压力,也影响性能表现
经过源码和实际运行环境验证
flowfile并不是以小文件的格式存储的
而是分块存储的,按大小合并在单个大文件中,文件大小到达上限后,再拆分第二个文件
其实和sql一类数据库的存储类似,不过结构简单很多,数据库大概一个文件块是64M,nifi默认的文件块可以上G
单个文件块例如1G
文件块内会保存多项flowfile文件,不是每flowfile一个小文件
在文件块内以offset区分不同的flowfile,顺序排列,这里又类似kafka
有时间再补详细信息吧,
不像logstash未来也不怎么用了
nifi未然依然会用,但主要的技术积累和调研,插件开发等,大坑小坑已经都搞的差不多,算是半毕业了,足够满足90%以上的场景,估计没这空闲
以后在nifi上的工作,应该是实现一些更复杂的插件,接入更多的数据组件