合并小文件spark开发
历时一个星期的讨论与开发,终于得出了一个合并小文件的雏形。
作为一个开发新生代,实属不易,发布出来与大家共勉。
思路:
这个思路是我与一个大佬一起完成的。接到合并小文件的任务以后,我们开始再网上各种找资料,跟朋友沟通学习。其中在网上找到了一篇博客写的很好:
https://www.cnblogs.com/heguoxiu/p/10691019.html 这篇博客已经很完善了,但是我们后边并没有完全按照他的思路来,其中他这里边缺少了校验的过程,就是小文件合并以后对文件条数的校验
* 合并文件
* 合并步骤:
* 1. 将小文件目录(srcDataPath)下的文件移动到临时目录/mergePath/${mergeTime}/src
* 2. 计算临时目录(/mergePath/${mergeTime}/src)的大小。 根据大小确定分区的数。
* 3. 使用coalesce或者repartition, 传入分区数。 将临时目录数据写入临时的数据目录(/mergePath/${mergeTime}/data)
*4.校验srcDataPath目录下数据条数和/mergePath/${mergeTime}/src目录下的条数是否一致,如若一致那么进行步骤5,6,否则,将小文件原封不动的放回去
* 5. 将临时数据目录文件move到文件目录(srcDataPath)
* 6. 删除临时目录(/merge/tmp)
以上这个思路是第一版,后来考虑到一个问题就是如果我们把小文件移动到临时目录的时候,那段时间这个目录对应的表是无法查询的,为了避免这个问题,我们没有选择移动文件,而是选择了通过read读取文件,转成DF,然后再把DF写入一个临时目录,这样就不会出现合并目录对应的表无法查询的问题了。
h