JavaScript 中的字符编码

在我们日常开发中,会碰到计算字符串长度的需求,大部分情况下通过字符串的 length 属性能够获得需要的长度。

但是当字符串里的字符不在常用的 65536 个代码点(基本多文种平面,BMP)的时候,情况就复杂了。

比如最大输入长度是 6,但是当我输入 6 个 💩,却提示内容过长了。Why?
我们来执行 console.log('💩'.length) 看看,返回值是 2,Why?
原因就是 💩 不在 BMP 上,它的代码点是 U+1F4A9(十进制表示是 128169)。

那我们如何获得组成 💩 的 2 个代码点呢?可以参照以下步骤:

  1. 把十六进制的代码点转成十进制,以 💩 为例,它的十六进制是 0x1F4A9,转成二进制就是 128169;
  2. 将 128169 - 65536,得到 62633;
  3. 将 62633 转成二进制表示(取 20 位,不足补 0),得到 0000 1111 0100 1010 1001;
  4. 把 20 位二进制分成两个 10 位,分别是 0000111101 和 0010101001,然后转成十六进制分别是 0x03D0x0A9
  5. 0x03D 加上 0xD800(固定值)得到 0xD83D,将 0x0A9 加上 0xDC00(固定值)得到 0xDCA9

以上 0xD83D0xDCA9 就是 💩 的两个代码点,用下面的方法可以验证

"\uD83D\uDCA9" === "\u{1F4A9}"
// true
posted @ 2021-08-02 12:08  尹宇星_Kim  阅读(124)  评论(0编辑  收藏  举报