在UTF-8中，一个汉字为什么需要三个字节？

UTF为了解决Unicode下的ANSI符号的空间浪费和网络传输下如何截取字符的问题给出了解决方案：

规定如果一个符号只占一个字节，那么这个8位字节的第一位就为0。如果为两个字节，那么规定第一个字节的前两位都为1，然后第一个字节的第三位为0，第二个字节的前两位为10，然后如果是三个字节的话，那么第一个字节的前三位为111，第四位为0，剩余的两个字节的前两位都为10。

按照这样的算法去思考一个中文字符的UTF-8是怎么表示的：一个中文字符需要两个字节来表示，两个字节一共是16位，那么UTF-8下，两个字节是不够的，因为两个字节下，第一个字节已经占据了三位：110，然后剩余的一个字节占据了两位：10，现在就只剩下8位，无法与Unicode匹配，也就是Unicode下的16位减去UTF-8下的8位=8位，刚好差了一个字节的空间，所以就使用三个字节去表示非ANSI字符：三个字节下，一共是24位，第一个字节头四位是：1110，后两个字节的前两位都是：10，那么24位-8位=16位，刚好两个字节去表示Unicode下的任意一个非ANSI字符。这也就是为什么UTF-8需要使用三个字节去表示一个非ANSI字符的原因了。

posted @ 2017-06-12 17:37 IFearless 阅读(1051) 评论(0) 收藏举报

刷新页面返回顶部

IFearless

在UTF-8中，一个汉字为什么需要三个字节？

公告