SQLLDR导入乱码
需求将多个源系统的数据文件导入至数据库中,正常使用sqlldr导入后,发现其中一个源系统的中文数据均为乱码
最先考虑到的是导入客户端与数据库编码不一致,查询表NLS_DATABASE_PARAMETERS中NLS_CHARACTERSET为ZHS16GBK(通过select * from v$nls_parameters; 查看NLS_CHARACTERSET为AL32UTF8),与客户端NLS_LANG值一致,排除
下一步怀疑文件编码问题,在xshell中cat数据文件,发现数据文件中的中文全部为乱码,更改xshell的编码为utf-8,再cat后发现乱码变为中文,确认问题的原因是数据文件的编码为UTF-8,与数据库编码不同。
可使用file -i filename 命令查询文件编码(linux)
解决方法
使用iconv命令转换数据文件编码,服务器是aix,执行后报错,cannot open converter,切换至root用户依旧报错,百思不得其解,将数据文件移至linux服务器,使用命令iconv -f utf-8 -t gbk filename > newfilename 转换成功,转移文件至aix服务器,使用cat命令查看,正常,使用sqlldr导入数据库后,无乱码,解决。
问题后续
经过iconv转换后,发现出现数据丢失的问题,比如,原来500多万条数据的文件,经过转换后只剩1万多条,怀疑是由于iconv命令遇到无法转化的字符时丢失,查询帮助文档加入-s参数
iconv -f utf-8 -t gbk -s inputfile -o outputfile
解决