.NET Framework 中的字符编码

字符是可以通过多种不同方式表示的抽象实体。字符编码是一个支持字符集中的每个字符进行配对值表示该字符的系统。例如，摩尔斯电码是一种为罗马字母表中的每个字符与点的模式和短划线适用于在电报线路中传输的字符编码。计算机的字符编码对一个支持字符集中的每个字符与表示该字符的数值。字符编码具有两个不同的组件:

编码器，将字符序列转换为数值序列 (字节)。
解码器，将字节序列转换为字符序列。

字符编码描述了编码器和解码器运行的规则。例如， UTF8Encoding 类描述了编码的规则对和解密时， 8 位 Unicode 格式 (utf-8)，使用表示单个 Unicode 字符的一到四个字节。编码和解码还可以包括验证。例如， UnicodeEncoding 类检查所有代理以确保它们组成有效的代理项对。 (代理对包含代码中的字符点从 U+D800 范围到后面的字符 U+DBFF 的范围到 U+DFFF。) 回退策略确定编码器如何处理无效字符或解码器如何处理无效字节。

警告
.NET framework 编码类提供了一种存储和转换字符数据的方法。不应使用这些类存储二进制数据以字符串的形式。根据所使用的编码，将二进制数据转换为使用编码类的字符串格式可能引入意外行为并导致错误或损坏的数据。若要将二进制数据转换为字符串形式，请使用 Convert..::.ToBase64String 方法。

面向公共语言运行时使用编码器映射 Unicode 字符表示的应用程序在公共语言运行时支持到其他编码模式。它们使用解码器将字符从非 Unicode 编码映射为 Unicode。

本主题包含以下几节:

在 .NET framework 中编码

.NET framework 中的所有字符编码类从 System.Text..::.Encoding 类继承，这是一个抽象类定义的通用功能所有字符编码。访问 .NET framework 中实现的单个编码对象，请执行以下操作:

使用 Encoding 类的静态属性，这些属性会返回表示标准字符编码在 .NET framework 中提供的 (ASCII、 UTF-7、 UTF-8、 UTF-16 和 UTF-32)。例如， Encoding..::.Unicode 属性返回 UnicodeEncoding 对象。每个对象都使用替换回退来处理它无法编码的字符串和无法解码的字节。 (有关更多信息，请参见 Replacement Fallback 一节。)
调用编码的类构造函数。 ASCII、 UTF-7、 UTF-8， UTF-16 和 UTF-32 编码的对象可通过实例化。默认情况下，每个对象都使用替换回退来处理它无法解码，但是，您可以指定的字符串和字节应引发异常。 (有关更多信息，请参见 Replacement Fallback 和 Exception Fallback 节。)
调用 Encoding..::.Encoding(Int32) 构造函数并向其传递表示编码的整数。标准编码对象使用替换回退，因此，代码页和双字节字符集 (dbcs) 编码对象使用最佳回退到它们无法编码的处理它们无法编码的字符串和无法解码的字节。 (有关更多信息，请参见 Best-Fit Fallback 一节。)
调用 Encoding..::.GetEncoding 方法，返回所有标准、代码页或 DBCS 编码在 .NET framework。重载允许您为编码器和解码器指定回退对象。

说明
Unicode 标准分配码位 (一个数字) 和名称为所支持的每个脚本的每个字符。例如，字符 “A”由码位 U+0041 和名称 “LATIN CAPITAL LETTER A”。 Unicode 转换格式 (UTF)编码定义方式输入码位到一个或多个字节序列。，因为它在单个编码，允许从任何字符集中的字符表示 Unicode 编码方案简化全球通用的应用程序开发。应用程序开发人员不必再跟踪用于生成特定语言或编写系统字符的编码方案，并且，数据可以在世界上的各系统之间共享，而不会受到损坏。 .NET framework 支持 Unicode 标准定义的三种编码:UTF-8、 UTF-16 和 UTF-32。有关更多信息，请参见 Unicode 标准 Unicode 主页。

说明

Unicode 标准分配码位 (一个数字) 和名称为所支持的每个脚本的每个字符。例如，字符 “A”由码位 U+0041 和名称 “LATIN CAPITAL LETTER A”。 Unicode 转换格式 (UTF)编码定义方式输入码位到一个或多个字节序列。，因为它在单个编码，允许从任何字符集中的字符表示 Unicode 编码方案简化全球通用的应用程序开发。应用程序开发人员不必再跟踪用于生成特定语言或编写系统字符的编码方案，并且，数据可以在世界上的各系统之间共享，而不会受到损坏。

.NET framework 支持 Unicode 标准定义的三种编码:UTF-8、 UTF-16 和 UTF-32。有关更多信息，请参见 Unicode 标准 Unicode 主页。

可以检索有关所有编码的信息。在 .NET framework 通过调用 Encoding..::.GetEncodings 方法。 .NET framework 支持下表中列出的字符编码系统。

编码	类	说明	优点/缺点
ASCII	ASCIIEncoding	使用字节较低的七位，对有限的字符。	由于此编码仅支持从 U+0000 到 U+007F 的字符值，在许多情况下它对于国际化应用程序不够用的。
UTF-7	UTF7Encoding	字符表示为 7 位 ASCII 字符序列。非 ASCII Unicode 字符的 ASCII 字符转义序列表示。	UTF-7 支持协议 (如电子邮件和新闻组协议。但是， UTF-7 并非特别安全或可靠。在某些情况下，更改一个位可能会完全改变对整个 UTF-7 字符串的解释。在某些情况下，不同的 UTF-7 字符串可能编码成相同的文本。对于包含非 ASCII 字符的序列， UTF-7 要高于 UTF-8 需要更多的空间，并且，编码/解码速度也更慢。因此，应该尽可能使用 UTF-8 而不是 UTF-7。
UTF-8	UTF8Encoding	每个 Unicode 码位表示为一到四个字节序列。	UTF-8 支持 8 位数据大小和使用许多现有操作系统。对于 ASCII 范围的字符， UTF-8 与 ASCII 编码相同并且允许更宽的字符集。但是，对于中文 - 日语 (CJK) - 朝鲜语 (cjk) 脚本， UTF-8 可能超过 UTF-16 要求每个字符使用三个字节，这可能导致较大的数据范围。请注意，有时 ASCII 数据 (如 HTML 标记， " CJK 范围增大的范围。
UTF-16	UnicodeEncoding	每个 Unicode 码位表示为一个或两个 16 位整数序列。最常见的 Unicode 字符只需要一个 UTF-16 码位，不过， Unicode 增补字符 (U+10000 及更高) 需要两个 UTF-16 代理。 little-endian 和 big-endian 字节顺序支持。	UTF-16 公共语言运行时用来编码表示 Char 和 String 值，并且， windows 操作系统使用它表示 WCHAR 值。
UTF-32	UTF32Encoding	每个 Unicode 码位表示为 32 位整数。 little-endian 和 big-endian 字节顺序支持。	可以使用 UTF-32 编码，当应用程序若要避免代理项码位在 UTF-16 编码空间太重要的操作系统时的编码行为。在显示呈现的单个标志符号多个多个 UTF-32 字符。
ANSI/ISO 编码		提供对各种代码页的支持。在 windows 操作系统上，代码页用于支持特定语言或组。对列表的表受 .NET framework 支持的代码页，请参见 Encoding 类。通过调用 Encoding..::.GetEncoding(Int32) 方法检索特定代码页的编码对象。	代码页包含码位、 256 和是从零开始的。在大多数代码页， 0 到 127 的码位表示 ASCII 字符集，，而 128 到 255 之间的码位在代码页之间。例如，代码页 1252 用于拉丁语书写系统提供字符，包括英语、德语和法语。代码页 1252 中的后 128 个码位均包含重音字符。代码页 1253 提供在希腊语书写系统需要的字符代码。代码页 1253 中的后 128 包含希腊语字符。因此，依赖 ANSI 代码页的应用程序在同一文本流不能将希腊语和德语存储，除非它包含指示引用的代码页的标识符。
双字节字符集 (dbcs) 编码		支持语言，如中文、日语和朝鲜语，超过 256 个字符。在 DBCS 中，对码位 (一个双字节) 表示一个字符。 Encoding..::.IsSingleByte 属性返回 DBCS 编码的 false 。通过调用 Encoding..::.GetEncoding(Int32) 方法检索特定 DBCS 的编码对象。	在 DBCS 中，对码位 (一个双字节) 表示一个字符。当应用程序处理 DBCS 数据， DBCS 字符 (前导字节) 的第一个字节处理以及紧跟其后的结尾字节。因为一对双字节码位可以将代码页表示不同的字符，则此方案依然不允许两种语言的组合，如日语和中文)，在同一数据流。

这些编码使您能够使用 Unicode 字符以及最常用于在传统应用的编码。此外，您还可以通过定义从 Encoding 并重写其成员派生的类来创建自定义编码。

选择编码类

如果您有机会选择应用程序要使用的编码，则应使用 Unicode 编码，最好是 UTF8Encoding 或 UnicodeEncoding。 (.NET framework 还支持第三个 Unicode 编码， UTF32Encoding。)

如果您计划使用 ASCII 编码 (ASCIIEncoding)，选择 UTF8Encoding 。这两个编码对于 ASCII 字符集相同的，但是， UTF8Encoding 具有以下优点:

它可以表示每个 Unicode 字符，，而 ASCIIEncoding 支持介于 U+0000 和 U+007F 之间的某些 Unicode 字符值。
它可以提供错误检测和更高的安全性。
它比其他编码调整尽快是应 express。对于完全采用 ASCII 的内容，使用执行的操作 UTF8Encoding 比使用执行的操作速度更快 ASCIIEncoding。

仅使用 ASCIIEncoding 传统应用程序，应考虑。但是，即使对旧应用程序， UTF8Encoding 可能是下列原因而言更好的选择:

如果应用程序具有未严格采用 ASCII 并使用对其与 ASCIIEncoding的内容，每个非 ASCII 字符输入作为问号 (?)。如果应用程序随后对此数据进行解码，将会丢失信息。
如果应用程序具有未严格采用 ASCII 并使用对其与 UTF8Encoding的内容，该结果看起来理解，如果解释为 ASCII。但是，因此，如果应用程序随后使用 UTF-8 解码器对此数据进行解码，数据将成功进行往返。

在 Web 应用程序，字符发送到客户端以响应 web 请求应反映客户端上使用的编码。在大多数情况下，您应该将 HttpResponse..::.ContentEncoding 属性设置为 HttpRequest..::.ContentEncoding 属性返回的值显示在用户期望的编码的文本。

使用编码对象

编码器将字符串 (通常， Unicode 字符) 转换为其数字 (字节) 等效值。例如，您可以使用 ASCII 编码器将 Unicode 字符转换为 ASCII，以便可以显示在控制台。若要执行转换，则调用 Encoding..::.GetBytes 方法。如果要确定有多少字节是在执行编码以前需要存储编码字符，可以调用 GetByteCount 方法。

下面的示例使用单字节数组在两个不同操作的字符串。它包含指示在字节数组中的起始位置的下一组 ASCII 编码的字节的索引。它调用 ASCIIEncoding..::.GetByteCount(String) 方法确保字节数组足以容纳编码的字符串。然后调用方法 ASCIIEncoding..::.GetBytes(String, Int32, Int32, array<Byte>[]()[], Int32) 输入该字符串中的字符。

Visual Basic

rongfengliang-荣锋亮

.NET Framework 中的字符编码

最佳回退

替换回退

异常回退

从 EncoderFallback 或 DecoderFallback 派生

从 EncoderFallbackBuffer 或 DecoderFallbackBuffer 派生

EncoderFallback 示例

导航

公告