谨慎使用Encoding.Default

在处理文本时，经常需要处理Encoding的概念。存在这个问题的原因在于，在.NET程序内文本只是string和char对象，而保存到硬盘时，或者准备用socket把它发送出去时，都得先转换成byte[]或者字节流。而转换的算法，就是Encoding。Encoding不同文本文件的行数也不同。

老外的程序里面，都喜欢用Encoding.ASCII，这是因为他们主要只使用western字符；于是我们经常要在他们的代码把Encoding.ASCII替换成Encoding.Default才能使用。

所谓Encoding.Default，是指当前系统设置的“默认字符集编码方式”。你可以通过控制面板里面的区域选项设置它（这是在我的机器上的设定）：

在这里插入图片描述

注意红色方框内的部分，“为你的非Unicode程序选择一个语言来匹配其本地语言版本”。这里选择了Chinese (PRC)，则Encoding.Default等效于Encoding.GetEncoding(“gb2312”)。gb2312在代码页936，所以所有以双字节编码（ANSI编码）字符的程序在这个系统上会使用936代码页，使用Unicode的不受影响。

你可以看到 Encoding.Default的值是和系统设定相关的。这样，有些时候会出问题：一台机器用socket发送一段文本到另一台机器，两边都设定编码方式为Encoding.Default，但两台机器的区域选项的这个设置是不一样的，却没有被注意；如果发送的是非western字符，则接受方必然会得到乱码。这种问题往往会令人很困惑。

所以在面对中文且为ANSI编码的情况下，最好不要用Encoding.Default，而用 Encoding.GetEncoding(“gb2312”)，或者更直接的Encoding.GetEncoding(936)；而如果有可能的话，最好全部使用unicode，比如utf-8，也就是Encoding.UTF8。有了unicode之后，其实我们不需要代码页的概念。

posted on 2021-04-02 14:05 宏宇阅读(713) 评论(0) 收藏举报