pu369com

Unicode 和 UTF-8 有何区别

比如  “我”这个字符。以二进制方式从文本文件中读,显示 :e6 88 91  

也就是说, “我”的utf-8编码的Hex:'\xe6\x88\x91'

而用在线工具查,“我”的Unicode-Escape:'\u6211'   

16进制的  6211  也就是   10进制的 25105

 

Unicode 和 UTF-8 二者区别如下:

Unicode是指每一个字符对应一个十六进制数字。计算机只懂二进制,严格按照unicode的方式(UCS-2)。
而UTF-8是指单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。

 

所以,  E68891 就是 ”我“ 这个字符的 uft8编码 得到的 字节数组 的 十六进制表示

 

补充:

还是百度百科讲的更明白,https://baike.baidu.com/item/%E7%BB%9F%E4%B8%80%E7%A0%81/2985798?fromtitle=Unicode&fromid=750500&fr=aladdin&ivk_sa=1024630g

 

参考:https://zhidao.baidu.com/question/2016329329338994828.html

https://segmentfault.com/q/1010000037765695/a-1020000037770394

posted on 2021-08-20 18:07  pu369com  阅读(2346)  评论(0编辑  收藏  举报

导航