DataX向写入到HDFS文件时报权限错误
一、概述
使用DataX进行数据同步时,如果没有开启kerberos,需要配置hdfsUser,不然会报权限错误;错误信息如下
二、错误分析
查看DataX的HdfsWriter插件,发现它底层的实现逻辑是:如果没有开启kerberos,那么会使用hdfsUser用户将数据写入到HDFS中;如果hdfsUser用户名为null,那么会使用同步机器的当前用户将文件写入到HDFS系统中;如果当前用户没有权限写入,那么就会报错。如果集群开启了kerberos,那么使用kerberos协议和keytab用户进行文件读取。
DataX实现逻辑如下:
三、解决方案
1、当hadoop集群开启kerberos时,需要将KerberosConfFilePath、KerberosPrincipal和KerberosKeytabFilePath都配置完整;hdfsUser可以不配置,即便是配置了底层也不会使用
2、当hadoop集群没有开启kerberos,需要配置hdfsUser,因为当进行文件读取时会将该用户加入到用户组,使用该用户进行文件读写操作;FileSystem原理如下
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)