Linux从zh_CN.GB2312迁移到zh_CN.UTF-8 - 包括 文件内容编码转换,文件名编码转换..
见附件
这篇文章非常不错,讲述了如何将:
文件内容,文件名,MP3里面的ID3 Tag,VIM。。。中的GB2312迁移到UTF-8的方法和实践。
摘录一些特有用的:
enca命令可以用来检测一个文本文件的编码
iconv可用来转换一个文件的内容的编码
convmv可用来将文件名做编码转换,而不是转换文件内容
GB2312 是国标里面一个最小也是最早的中文编码标准。其中,只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候,你可以用 GB18030 做为源格式来进行转换。GB18030 是最新的国家标准,包含了 27,564 个汉字,而且向下兼容 GB2312 和 GBK。
这篇文章非常不错,讲述了如何将:
文件内容,文件名,MP3里面的ID3 Tag,VIM。。。中的GB2312迁移到UTF-8的方法和实践。
摘录一些特有用的:
enca命令可以用来检测一个文本文件的编码
iconv可用来转换一个文件的内容的编码
convmv可用来将文件名做编码转换,而不是转换文件内容
GB2312 是国标里面一个最小也是最早的中文编码标准。其中,只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候,你可以用 GB18030 做为源格式来进行转换。GB18030 是最新的国家标准,包含了 27,564 个汉字,而且向下兼容 GB2312 和 GBK。