手持两把锟斤拷，口中疾呼烫烫烫

这篇文章我们来说说乱码的由来。相信大家基本都遇到过，其中最常见的乱码就是 “锟斤拷” 了（锟读作 kūn）：

Excel 乱码截图

‍

乱码怎么产生的

乱码，一般是在编码的转换过程中产生。例如 Unicode 是不兼容其他地域性字符编码的，当有些 Unicode 中的字符，用作 GB 类编码去解析的时候，就会产生乱码。

在 Unicods 字符集有一个特殊的替换符号，专门用于表示无法识别或展示的字符，就是一个菱形中间一个问号：�

该符号的 UTF-8 的编码为 EF BF BD。更多请参考：� - 替换字符: U+FFFD - Unicode 字符百科

有些编辑器，会在遇到无法识别的字符时，自动将其替换为该符号 �，向用户表明这是无法识别的字符；

当有两个该符号的时候，例如 ��，那么其编码就为 EF BF BD EF BF BD

而如果用 GBK 的格式去解析 EF BF BD EF BF BD 的时候，由于 GBK 是 2 个字节表示一个汉字，因此会解析成：

这就是锟斤拷的由来了。

‍

先创建一个 txt，其编码方式改为 UTF8，并输入 ��，然后用 GBK 的格式打开，就能看到了：本例通过 VSCode 演示，其他编辑器同理

posted @ 2024-06-18 09:42 peterjxl 阅读(696) 评论(0) 收藏举报

刷新页面返回顶部