提升Java字符串编码解码性能的技巧
作者 | 温绍锦 (高铁)
来源 | 阿里开发者公众号
1 常见字符串编码
常见的字符串编码有:
- LATIN1 只能保存ASCII字符,又称ISO-8859-1。
- UTF-8 变长字节编码,一个字符需要使用1个、2个或者3个byte表示。由于中文通常需要3个字节表示,中文场景UTF-8编码通常需要更多的空间,替代的方案是GBK/GB2312/GB18030。
- UTF-16 2个字节,一个字符需要使用2个byte表示,又称UCS-2 (2-byte Universal Character Set)。根据大小端的区分,UTF-16有两种形式,UTF-16BE和UTF-16LE,缺省UTF-16指UTF-16BE。Java语言中的char是UTF-16LE编码。
- GB18030 变长字节编码,一个字符需要使用1个、2个或者3个byte表示。类似UTF8,中文只需要2个字符,表示中文更省字节大小,缺点是在国际上不通用。
2 编码转换性能
UTF-16和UTF-8之间转换比较复杂,通常性能较差。
相关代码地址[1] 。
由于Java中char是UTF-16LE编码,如果需要将char[]转换为UTF-16LE编码的byte[]时,可以使用sun.misc.Unsafe#copyMemory方法快速拷贝。比如:
3 Java String的编码
不同版本的JDK String的实现不一样,从而导致有不同的性能表现。char是UTF-16编码,但String在JDK 9之后内部可以有LATIN1编码。
3.1. JDK 6之前的String实现
在Java 6之前,String.subString方法产生的String对象和原来String对象共用一个char[] value,这会导致subString方法返回的String的char[]被引用而无法被GC回收。于是使得很多库都会针对JDK 6及以下版本避免使用subString方法。
3.2. JDK 7/8的String实现
JDK 7之后,字符串去掉了offset和count字段,value.length就是原来的count。这避免了subString引用大char[]的问题,优化也更容易,从而JDK7/8中的String操作性能比Java 6有较大提升。
3.3. JDK 9/10/11的实现
JDK 9之后,value类型从char[]变成byte[],增加了一个字段code,如果字符全部是ASCII字符,使用value使用LATIN编码;如果存在任何一个非ASCII字符,则用UTF16编码。这种混合编码的方式,使得英文场景占更少的内存。缺点是导致Java 9的String API性能可能不如JDK 8,特别是传入char[]构造字符串,会被做压缩为latin编码的byte[],有些场景会下降10%。
4 快速构造字符串的方法
为了实现字符串是不可变特性,构造字符串的时候,会有拷贝的过程,如果要提升构造字符串的开销,就要避免这样的拷贝。
比如如下是JDK8的String的一个构造函数的实现
在JDK8中,有一个构造函数是不做拷贝的,但这个方法不是public,需要用一个技巧实现MethodHandles.Lookup & LambdaMetafactory绑定反射来调用,文章后面有介绍这个技巧的代码。
快速构造字符的方法有三种:
- 使用MethodHandles.Lookup & LambdaMetafactory绑定反射
- 使用JavaLangAccess的相关方法
- 使用Unsafe直接构造
这三种方法,1和2性能差不多,3比1和2略慢,但都比直接new字符串要快得多。JDK8使用JMH测试的数据如下:
在JDK 9之后,对全部是ASCII字符的场景,直接构造能达到更好的效果。
4.1 基于MethodHandles.Lookup & LambdaMetafactory绑定反射的快速构造字符串的方法。
相关代码地址[2]。
4.1.1 JDK8快速构造字符串
4.1.2 JDK 11快速构造字符串的方法
4.1.3 JDK 17快速构造字符串的方法
在JDK 17中,MethodHandles.Lookup使用Reflection.registerFieldsToFilter对lookupClass和allowedModes做了保护,网上搜索到的通过修改allowedModes的办法是不可用的。
在JDK 17中,要通过配置JVM启动参数才能使用MethodHandlers。如下:
4.2 基于JavaLangAccess快速构造
通过SharedSecrets提供的JavaLangAccess,也可以不拷贝构造字符串,但是这个比较麻烦,JDK 8/11/17的API都不一样,对一套代码兼容不同的JDK版本不方便,不建议使用。
4.3 基于Unsafe实现快速构造字符串
注意:在JDK 9之后,实现是不同,比如:
4.4 快速构建字符串的技巧应用:
如下的方法格式化日期为字符串,性能就会非常好。
5 快速遍历字符串的办法
无论JDK什么版本,String.charAt都是一个较大的开销,JIT的优化效果并不好,无法消除参数index范围检测的开销,不如直接操作String里面的value数组。
在JDK 9之后的版本,charAt开销更大
5.1 获取String.value的方法
获取String.value的方法有如下:
- 使用Field反射
- 使用Unsafe
Unsafe和Field反射在JDK 8 JMH的比较数据如下:
5.1.1 使用反射获取String.value
5.1.2 使用Unsafe获取String.value
6 更快的encodeUTF8方法
当能直接获取到String.value时,就可以直接对其做encodeUTF8操作,会比String.getBytes(StandardCharsets.UTF_8)性能好很多。
6.1 JDK8高性能encodeUTF8的方法
使用encodeUTF8方法举例
这样encodeUTF8操作,不会有多余的arrayCopy操作,性能会得到提升。
6.1.1 性能测试比较
测试代码
测试结果
从结果来看,通过unsafe + 直接调用encodeUTF8方法, 编码的所需要开销是newStringUTF8的58%。
6.2 JDK9/11/17高性能encodeUTF8的方法
使用encodeUTF8方法举例
这样encodeUTF8操作,不会有多余的arrayCopy操作,性能会得到提升。
7 重要提醒
上面这些技巧都不是给新手使用的,使用不当会容易导致BUG,如果没彻底搞懂,请不要使用!
参考链接:
[1]
[2]
本文为阿里云原创内容,未经允许不得转载。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2021-05-24 进入中国内地第31年的麦当劳 ,为什么还能不断吸引新消费人群?
2021-05-24 快成物流科技 x mPaaS | 小程序容器加持下的技术架构“提质增效”
2021-05-24 OceanBase再破纪录!核心成员陈萌萌:坚持HTAP就是坚持我们做数据库的初心
2021-05-24 Java单元测试技巧之PowerMock
2021-05-24 技术干货 | 如何在 Library 中使用/依赖 mPaaS?