JavaScript 中的字符编码
在我们日常开发中,会碰到计算字符串长度的需求,大部分情况下通过字符串的 length
属性能够获得需要的长度。
但是当字符串里的字符不在常用的 65536 个代码点(基本多文种平面,BMP)的时候,情况就复杂了。
比如最大输入长度是 6,但是当我输入 6 个 💩,却提示内容过长了。Why?
我们来执行 console.log('💩'.length)
看看,返回值是 2,Why?
原因就是 💩 不在 BMP 上,它的代码点是 U+1F4A9(十进制表示是 128169)。
那我们如何获得组成 💩 的 2 个代码点呢?可以参照以下步骤:
- 把十六进制的代码点转成十进制,以 💩 为例,它的十六进制是
0x1F4A9
,转成二进制就是 128169; - 将 128169 - 65536,得到 62633;
- 将 62633 转成二进制表示(取 20 位,不足补 0),得到 0000 1111 0100 1010 1001;
- 把 20 位二进制分成两个 10 位,分别是 0000111101 和 0010101001,然后转成十六进制分别是
0x03D
和0x0A9
; - 将
0x03D
加上0xD800
(固定值)得到0xD83D
,将0x0A9
加上0xDC00
(固定值)得到0xDCA9
。
以上 0xD83D
和 0xDCA9
就是 💩 的两个代码点,用下面的方法可以验证
"\uD83D\uDCA9" === "\u{1F4A9}"
// true