Unicode 和 UTF-8 有何区别
比如 “我”这个字符。以二进制方式从文本文件中读,显示 :e6 88 91
也就是说, “我”的utf-8编码的Hex:'\xe6\x88\x91'
而用在线工具查,“我”的Unicode-Escape:'\u6211'
16进制的 6211 也就是 10进制的 25105
Unicode 和 UTF-8 二者区别如下:
Unicode是指每一个字符对应一个十六进制数字。计算机只懂二进制,严格按照unicode的方式(UCS-2)。
而UTF-8是指单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。
所以, E68891 就是 ”我“ 这个字符的 uft8编码 得到的 字节数组 的 十六进制表示
补充:
还是百度百科讲的更明白,https://baike.baidu.com/item/%E7%BB%9F%E4%B8%80%E7%A0%81/2985798?fromtitle=Unicode&fromid=750500&fr=aladdin&ivk_sa=1024630g
参考:https://zhidao.baidu.com/question/2016329329338994828.html
https://segmentfault.com/q/1010000037765695/a-1020000037770394