UTF-8带BOM和不带BOM的转换
UTF-8带BOM和不带BOM的转换
标签:Linux UTF-8 BOM
【问题】
在linux下如果你使用过的编码不是utf-8你可以使用enca进行转换,然而转换过后的情况是不带bom的uft-8,在windos下我们的编译器采用了msvc2015,而msvc2015不能很好的识别不带bom的utf-8,搞得每次都得使用notepad++打开然后再进行编码转换,可是文件千千万万个...
【分析问题】
根据上面的情况,我们可以将这个问题分为两个子问题进行解决:
问题1.UTF-8带BOM和不带BOM有什么区别?
问题2.UTF-8带BOM和不带BOM的转化?
【解决-问题1:UTF-8带BOM和不带BOM有什么区别?】
(1)打开notepad++,输入123
(2)菜单栏选择 编码-转为UTF-8无BOM编码格式并进行保存
(3)菜单栏选择 插件-HEX-Editor-view in HEX (关于插件HEX-Editor的安装可以直接使用插件管理进行安装,unix下面可以直接使用xxd查看)
(4)可以看到
(5)退出view in HEX
(6)菜单栏选择 编码-转为UTF-8编码格式并进行保存
(7)重复步骤(3)(4)可以看到
Ok,这就知道它们在编码的区别了,理论上的区别呢? 请进行移步到:https://en.wikipedia.org/wiki/Byte_order_mark 进行查看.
【解决-UTF-8带BOM和不带BOM的转化?】
废话不多说,利用Linux(笔者此处测试的环境为:Ubuntu12.04)的主要代码如下:
#clear bom
sed -i '1s/^\xef\xbb\xbf//' “$你的输入文件,如:mian.cpp”
#add bom
sed -I '1s/^/\xef\xbb\xbf&/' “$你的输入文件,如:mian.cpp”
笔者为了处理一个文件夹下面的代码源文件(.cpp,.h)用了一个函数,当然你也可以直接使用find.
完整代码如下:
#!/bin/bash
add_bom()
{
for i in `ls $1`
do
current_path=$1/$i
if [ -d $current_path ]
then
change_code $current_path
else
if [ "${current_path##*.}" = "cpp" ] || [ "${current_path##*.}" = "h" ];then
#clear bom
sed -i '1s/^\xef\xbb\xbf//' $current_path
#add bom
sed -I '1s/^/\xef\xbb\xbf&/' $current_path
fi
fi
done
}
current=`pwd`
add_bom $current
至此完成,关于直接采用find,待后续有需要再进行补充吧。
祝:玩得愉快!