namenode HA hadoop client API写数据操作配置
由于项目需要,需要把数据写入大数据平台的HDFS,大数据平台使用kerberos认证,且做了HA。由于之前没有使用过这种场景,在网上找了一圈,并且踩了几个坑,终于搞定。以下是代码和注释。
public Configuration getConfig() throws Exception { // 设置java安全krb5配置,根据实际情况配置 System.setProperty("java.security.krb5.realm", "HADOOP.COM"); System.setProperty("java.security.krb5.kdc", "10.218.22.12"); System.setProperty("java.security.krb5.conf", "/etc/krb5.conf"); Configuration conf = new Configuration(); //以下是hadoop相关配置,需要参考hdfs-site.xml配置文件 conf.set("fs.defaultFS", "hdfs://hdpnm2"); conf.set("dfs.nameservices", "hdpnm2"); conf.set("dfs.ha.namenodes.hdpnm2", "nm1,nm2"); conf.set("dfs.namenode.rpc-address.hdpnm2.nm1", "namenode01"); conf.set("dfs.namenode.rpc-address.hdpnm2.nm2", "namenode02"); conf.set("dfs.client.failover.proxy.provider.hdpnm2", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"); // 开启安全的配置 conf.setBoolean("hadoop.security.authorization", true); // 设置dfs.encryption.key.provider.uri conf.set("dfs.encryption.key.provider.uri", "kms://http@key-provider:16000/kms"); // 配置安全认证方式为kerberos conf.set("hadoop.security.authentication", "Kerberos"); // 设置namenode的principal conf.set("dfs.namenode.kerberos.principal", "hdfs/_HOST@HADOOP.COM"); // 设置datanode的principal conf.set("dfs.datanode.kerberos.principal", "hdfs/_HOST@HADOOP.COM"); // 通过hadoop security下中的 UserGroupInformation类来实现使用keytab文件登录 UserGroupInformation.setConfiguration(conf); // 设置登录的kerberos principal和对应的keytab文件 UserGroupInformation.loginUserFromKeytab("user", "/etc/user.keytab"); return conf; }
以上代码看起来比较多,其实最简单多方式是通过configuration.addResource的方式添加配置信息。
注意:
获取FileSystem对象时,只需要通过 FileSystem fileSystem = FileSystem.get(config); 如果使用FileSystem get(final URI uri, final Configuration conf, final String user),可能会出现 org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS] 异常。