JVM—String字符串（二）

一、JDK 8 版本下 JVM 对象的分配、布局、访问（概述）
二、JDK8 中的 String

一、JDK 8 版本下 JVM 对象的分配、布局、访问（概述）

1、对象的创建过程

（1）前言

　　Java 是一门面向对象的编程语言，程序运行过程中在任意时刻都可能有对象被创建。开发中常用 new 关键字、反射等方式创建对象， JVM 底层是如何处理的呢？

（2）对象的创建的几种常见方式

使用 new 关键字创建（常见比如：单例模式、工厂模式等创建）。
反射机制创建（调用 class 的 newInstance() 方法）。
克隆创建（实现 Cloneable 接口，并重写 clone() 方法）。
反序列化创建。

（3）对象创建步骤

第一步：判断对象对应的类是否已经被加载、解析、初始化过。

　　虚拟机执行 new 指令时，先去检查该指令的参数能否在方法区（元空间）的运行时常量池中定位到某个类的符号引用，并检查这个符号引用代表的类是否被加载、解析、初始化过。如果没有，则在双亲委派模式下，查找相应的类并加载。

第二步：为对象分配内存空间。

　　类加载完成后，即可确定对象所需的内存大小，在堆中根据适当算法划分内存空间给对象。

划分算法：
　　划分算法根据 Java 堆中内存是否规整进行可划分为：指针碰撞、空闲列表。
　　堆内存规整时，采用指针碰撞方式分配内存空间，由于内存规整，即指针只需移动所需对象内存大小即可。
　　堆内存不规整时，采用空闲列表方式分配内存空间，存在内存碎片，需要维护一个列表用于记录哪些内存块可用，在列表中找到足够大的内存空间分配给对象。

堆内存是否规整：
　　堆内存是否规整由垃圾回收器算法决定。
　　使用 Serial、ParNew 等带有 Compact（压缩）过程的垃圾回收器时，堆内存规整，即指针碰撞。
　　使用 CMS 等带有 Mark-Sweep（标记清除）算法的垃圾回收器时，堆内存不规整，即空闲列表。

第三步：处理并发安全问题。
　　分配内存空间时，指针修改可能会碰到并发问题（比如对象 A 分配内存后，但指针还没修改，此时对象 B 仍使用原来指针进行内存分配，那么 A 与 B 就会出现冲突）。

解决方式一：对分配内存空间的动作进行同步处理（CAS 加上失败重试保证更新操作的原子性）。

解决方式二：将分配内存空间的动作按照线程划分到不同空间中执行（Thread Local Allocation Buffer，TLAB，每个线程在堆中预先分配一小块内存空间，哪个线程需要分配内存，就在哪个 TLAB 上进行分配）。

第四步：初始化属性值。
　　将内存空间中的属性赋零值（默认值）。

第五步：设置对象的对象头。
　　将对象所属类的元数据信息、对象的哈希值、对象 GC 分代年龄等信息存储在对象的对象头。

第六步：执行 <init> 方法进行初始化。
　　执行 <init> 方法，加载非静态代码块、非静态变量、构造器，且执行顺序为从上到下执行，但构造器最后执行。并将堆内对象的首地址赋值给引用变量。

2、对象内存布局

　　java对象的内存布局以及使用ClassLayout查看布局：https://www.cnblogs.com/hhddd-1024/p/16525797.html

　　对象在内存中存储布局可以分为：对象头（Header）、实例数据（Instance Data）、对齐填充（Padding）。

　　对象头用于存储运行时元数据以及类型指针。

运行时元数据：对象的哈希值、GC 分代年龄、锁状态标志、偏向时间戳等。
类型指针：即对象指向类元数据的指针（通过该指针确定该对象属于哪个类）。

（2）实例数据（Instance Data）

　　其为对象存储的真实有效信息，即程序中各类型字段的内容。

（4）对齐填充（Padding）

　　不是必然存在的，起着占位符的作用。比如 HotSpot 中对象大小为 8 字节的整数倍，当对象实例数据不是 8 字节的整数倍时，通过对齐填充补全。

3、对象访问定位（句柄访问、直接指针）

（1）问题

　　对象存于堆中，而对象的引用存放在栈帧中，如何根据栈帧存放的引用定位堆中存储的对象，即为对象访问定位问题。取决于 JVM 的具体实现，常见方式：句柄访问、直接指针。

（2）句柄访问

　　在堆中划分出一块内存作为句柄池，用于保存对象的句柄地址（指针），而栈帧中存放的即为句柄地址。
　　当对象被移动（垃圾回收）时，只需要改变句柄池中指向对象实例数据的指针即可，不需要修改栈帧中的数据。

（3）直接访问（HotSpot 使用）

　　栈帧中直接存放对象实例数据的地址，对象移动时，需要修改栈帧中的数据。
　　相较于句柄访问，减少了一次指针定位的时间开销（积少成多还是很可观的）。

二、JDK8 中的 String

1、String 基本概念（JDK9 稍作改变）

（1）基本概念

String 指的是字符串，一般使用双引号括起来 "" 表示（比如： "hello"）。
使用 final 类型修饰 String 类，表示不可被继承。
String 类实现了 Serializable 接口，表示字符串支持序列化。
String 类实现了 Comparable 接口，表示可以比较大小。
String 类内部使用 final 修饰的数组存储字符。

注：JDK8 及以前内部使用 final char[] value 用于存储字符串数据，JDK9 时改为 final byte[] 存储数据（内部将每个字符与 0xFF 比较，当有一个比 0xFF 大时，使用 2 个字节存储，否则使用 1 个字节存储）。

（2）赋值方式

字面量直接赋值
new 关键字通过构造器赋值

【字面量直接赋值：值会存放于 字符串常量池 中】
    String a = "hello";

【new + 构造器赋值：值可能会存放于 字符串常量池 中，并且 new 关键字会在堆中创建一个对象】
    String a = new String("hello");    
注：
    值不一定会存放于 字符串常量池中，可以调用 String 的 intern() 方法将值放于字符串常量池中。
    intern() 方法在不同 JDK 版本中实现不同，后面会举例，此处大概有个印象即可。

2、字符串常量池（String Pool）、String 不可变性

（1）字符串常量池（String Pool）

　　JVM 内部维护一个字符串常量池（String Pool），当 String 以字面量形式赋值时，此时字符串会声明在字符串常量池中（比如：String a = "hello" 赋值时，会生成一个 "hello" 字符串存于常量池中）。

　　字符串常量池中不会存储相同内容的字符串，其内部实现是一个固定大小的 Hashtable，如果常量池中存储 String 过多，将会造成 hash 冲突，从而造成性能下降，可以通过 -XX:StringTableSize 设置 StringTable 大小（比如：-XX:StringTableSize=2000）。

注：

常量池类似于缓存，使程序运行更快、节省内存。
JDK 6 及以前，字符串常量池存放于永久代中，StringTable 默认长度为 1009。
JDK 7 及之后，字符串常量池存放于堆中，StringTable 默认长度为 60013，其最小值为 1009。

【常用 JVM 参数：】
-XX:StringTableSize    配置字符串常量池中的 StringTable 大小，JDK 8 默认：60013。
-XX:+PrintStringTableStatistics  在JVM 进程退出时，打印出 StringTable 相关统计信息。

（2）String 不可变性

　　String 一旦在内存中创建，其值将是不可变的（反射场景除外）。当值改变时，改变的是指向堆内存的引用，而非直接修改内存中的值。

JDK 8 String 不可变：

　　JDK8 采用 final 修饰 String 类，表示该类不可被继承。

　　String 类内部采用 private final char value[] 存储字符串，使用 private 修饰数组且不对外提供 setter 方法，即外部不可修改字符串。使用 final 修饰数组，表示内部不可修改字符串（引用地址不变，内容可变，使用反射可能会改变字符串）。且 String 提供的相关方法中，并没有去修改原有字符串中的值，而是返回一个新的引用指向内存中新的 String 值（比如 replace() 方法返回一个 new String() 对象）。

（3）常见场景（修改引用地址）

对现有字符串重新赋值时。
对现有字符串进行连接操作时。
使用字符串的 replace() 方法修改指定字符串时。

【举例：（给现有字符串重新赋值）】
public static void main(String[] args) {
    String C1 = new String("abc");
    String C2 = C1;
    System.out.println(C1 == C2); // true
    System.out.println(System.identityHashCode(C1));
    System.out.println(System.identityHashCode(C2));
    C2 = "abc";
    System.out.println(C1 == C2); // false
    System.out.println(System.identityHashCode(C1));
    System.out.println(System.identityHashCode(C2));
}

3、String 拼接操作 -- 笔试题

（1）拼接操作可能存在的情况

常量与常量（字面量或者 final 修饰的变量）的拼接结果会存放于常量池中，由编译期优化导致。
拼接数据中若有一个是变量，则拼接结果会存放于堆中。由 StringBuilder 拼接。
如果拼接结果调用 intern() 方法，且常量池中不存在该字符串对象，则将拼接结果存放于常量池中。

（2）常量（字面量）拼接 -- 拼接结果存于常量池

　　对于两个及以上字面量拼接操作，在编译时会进行优化，若该拼接结果不存在于常量池中，则直接将其拼接结果存于常量池，并返回其引用地址。否则，返回常量池中该结果所在的引用地址。

【举例：】
public static void main(String[] args) {
    String c1 = "a" + "b" + "c";	    // 编译期优化，等同于 "abc"，并存放于常量池中
    String c2 = "abc";					// "abc" 已存在于常量池，此时直接将常量池中的地址 赋给 c2
    System.out.println(c1 == c2); 		// true
    System.out.println(System.identityHashCode(c1));
    System.out.println(System.identityHashCode(c2));
}

（3）final 修饰的变量拼接（可以理解为常量） -- 拼接结果存于常量池

　　由于 final 修饰的变量不可被修改，在编译期优化等同于常量进行拼接操作，所以结果存放于常量池中。

【举例：】
public static void main(String[] args) {
    final String c1 = "hello";
    final String c2 = "world";
    String c3 = "helloworld";			// "helloworld" 存放于常量池中
    String c4 = c1 + c2;			    // 发生编译器优化，此处等价于 helloworld
    System.out.println(c3 == c4);		// true
    System.out.println(System.identityHashCode(c3));
    System.out.println(System.identityHashCode(c4));
}

（4）一般变量拼接 -- 拼接结果存于堆

　　拼接操作中出现变量时，会触发 new StringBuilder 操作，并使用 StringBuilder 的 append 方法进行字符串拼接，最终调用其 toString 方法转为字符串，并返回引用地址。

注：StringBuilder 的 toString 方法内部调用 new String()，其最终拼接结果存放于堆中（不会将拼接结果存放于常量池，可以手动调用 intern() 方法将结果放入常量池，后面介绍，往下看）。

　　使用 StringBuilder 进行字符串拼接操作效率要远高于使用 String 进行字符串拼接操作。

　　使用 String 直接进行拼接操作时，若出现变量，则会先创建 StringBuilder 对象，最终输出结果还得转为 String 对象，即使用 String 进行字符串拼接过程中可能出现多个 StringBuilder 和 String 对象（比如在循环中进行字符串拼接操作），且创建对象过多会占用更多的内存。
　　而使用 StringBuilder 进行拼接操作时，只需要创建一个 StringBuilder 对象即可，可以节省内存空间以及提高效率执行。

// 源文件内容
public static void main(String[] args) {
    String c1 = "hello";
    String c2 = "world";
    String c3 = "hello" + "world";		    // 发生编译优化，等价于 "helloworld"，存于常量池
    String c4 = "helloworld";				// 常量池中已存在，直接赋值常量池引用
    String c5 = "hello" + c2;			    // 拼接结果存于 堆
    String c6 = c1 + "world";				// 拼接结果存于 堆
    String c7 = c1 + c2; 					// 拼接结果存于 堆
    System.out.println(System.identityHashCode(c3));
    System.out.println(System.identityHashCode(c4));
    System.out.println(System.identityHashCode(c5));
    System.out.println(System.identityHashCode(c6));
    System.out.println(System.identityHashCode(c7));
}
// 字节码内容
public static void main(String[] args) {
    String c1 = "hello";
    String c2 = "world";
    String c3 = "helloworld";
    String c4 = "helloworld";
    (new StringBuilder()).append("hello").append(c2).toString();
    String c6 = c1 + "world";
    (new StringBuilder()).append(c1).append(c2).toString();
}

（5）拼接结果调用 intern 方法 -- 结果存放于常量池

　　由于不同版本 JDK 的 intern() 方法执行结果不同，此处暂时略过，接着往下看。

4、String 使用 new 关键字创建对象问题 -- 笔试题

（1）new String("hello") 会创建几个对象？

　　可能会创建 1 个或 2 个对象。

　　new 关键字会在堆中创建一个对象，而当字符串常量池中不存在 "hello" 时，会创建一个对象存入字符串常量池。若常量池中存在对象，则不会创建、会直接引用。

public static void main(String[] args) {
    String c1 = new String("hello");
    String c2 = new String("hello");
}

（2）new String("hello") + new String("world") 创建了几个对象？

　　创建了 6 个对象（不考虑常量池是否存在数据）。

对象创建：

　　由于涉及到变量的拼接，所以会触发 new StringBuilder() 操作。此处创建 1 个对象。

　　new String("hello") 通过上例分析，可以知道会创建 2 个对象（堆 1 个，字符串常量池 1 个）。

　　同理 new String("world") 也会创建 2 个对象。

　　最终拼接结果会触发 StringBuilder 的 toString() 方法，内部调用 new String() 在堆中创建一个对象（此处不会在字符串常量池中创建对象）。

注：
　　StringBuilder 的 toString() 内部的 new String() 并不会在字符串常量池中创建对象。

　　String str = new String("hello"); 这种形式创建的字符串可以在字符串常量池中创建对象。

此处我是根据字节码文件中是否有 ldc 指令来判断的（后续根据 intern() 方法同样也可以证明这点），有不对的地方，还望不吝赐教。

public static void main(String[] args) {
	String a = new String("hello") + new String("world");
}

5、String 中的 intern() 相关问题 -- 笔试题

（1）intern() 作用

　　对于非字面量直接声明的 String 对象（通过 new 创建的对象），可以使用 String 提供的 intern 方法获取字符串常量池中的数据。

该方法作用：

　　从字符串常量池中查询当前字符串是否存在（通过 equals 方法比较），如果不存在，则会将当前字符串放入常量池中并返回该引用地址（此处不同版本的 JDK 有不同的实现）。若存在则直接返回引用地址。

（2）不同 JDK 版本中 intern() 使用的区别

　　JDK 6：尝试将该字符串对象放入字符串常量池中（字符串常量池位于 方法区中），
　　　　若字符串常量池中已经存在该对象，则返回字符串常量池当前对象的引用地址。
　　　　若没有该对象，则将当前对象值复制一份放入字符串常量池，并返回此时对象的引用地址。

　　JDK 7 之后：尝试将该字符串对象放入字符串常量池中（字符串常量池位于 堆中），
　　　　若字符串常量池中已经存在该对象，则返回字符串常量池当前对象的引用地址。
　　　　若没有该对象，则将当前对象的引用地址复制一份放入字符串常量池，并返回引用地址。

（3）使用 JDK8 演示 intern()

　　此处使用 JDK8 演示 intern() 方法，有兴趣可以自行研究 JDK6 的操作。

【例一：】
public static void main(String[] args) {
    String a = new String("hello"); // 此时常量池存在 "hello"
    String b = "hello"; // 直接引用常量池中 "hello"
    String c = a.intern(); // 直接引用常量池中 "hello"
    System.out.println(System.identityHashCode(a));
    System.out.println(System.identityHashCode(b));
    System.out.println(System.identityHashCode(c));
    System.out.println(b == a); // false，a 指向 堆 内对象，b 指向 字符串常量池
    System.out.println(b == c); // true，b,c 均指向字符串常量池
}

【例二：（b,c 互换位置）】
public static void main(String[] args) {
    String a = new String("hello"); // 此时常量池存在 "hello"
    String c = a.intern(); // 直接引用常量池中 "hello"
    String b = "hello"; // 直接引用常量池中 "hello"
    System.out.println(System.identityHashCode(a));
    System.out.println(System.identityHashCode(b));
    System.out.println(System.identityHashCode(c));
    System.out.println(b == a); // false，a 指向 堆 内对象，b 指向 字符串常量池
    System.out.println(b == c); // true，b,c 均指向字符串常量池
}

【分析：】
    例一 与 例二 的区别在于 intern() 执行时机不同，且两者输出结果相同。
    JDK 8 中 intern() 执行时，若字符串常量池中 equals 未比较出相同数据，则将当前对象的引用地址 复制一份并放入常量池。
    若存在数据，则返回常量池中数据的引用地址。
    
    即 new String() 操作后，若常量池中不存在 数据，则调用 intern() 后，会复制 堆的地址 并存入 常量池中。后续获得的均为 堆的地址。也即上述 例一、例二 中 a、b、c 操作后，均相同且指向 堆。
　　若常量池存在数据，则调用 intern() 后，返回常量池引用，后续获得的均为 常量池引用。也即上述 例一、例二 中 a 为指向堆 的引用地址，b,c 均为指向常量池的引用地址。

    通过输出结果可以看到，上述 例一、例二 中 a、b、c 操作后，b, c 相同且不同于 a（即 b、c 指向常量池），从侧面也反映出 new String("hello") 执行后 常量池中存在 "hello"。

【例四：】
public static void main(String[] args) {
    char[] a = new char[]{'h', 'e', 'l', 'l', 'o'};
    String b = new String(a, 0 , a.length); // 此时常量池中不存在 "hello"
    String c = "hello"; // 此时常量池中存在 "hello"
    String d = b.intern(); // 直接引用常量池中的 "hello"
    System.out.println(System.identityHashCode(b));
    System.out.println(System.identityHashCode(c));
    System.out.println(System.identityHashCode(d));
    System.out.println(c == b); // false, b 指向堆对象， c 指向常量池
    System.out.println(c == d); // true，c，d 均指向常量池
}

【例五：】
public static void main(String[] args) {
    char[] a = new char[]{'h', 'e', 'l', 'l', 'o'};
    String b = new String(a, 0 , a.length); // 此时常量池中不存在 "hello"
    String d = b.intern(); // 常量池不存在 "hello"，复制 b 在堆中的引用到常量池中
    String c = "hello"; // 直接获取常量池中的引用
    System.out.println(System.identityHashCode(b));
    System.out.println(System.identityHashCode(c));
    System.out.println(System.identityHashCode(d));
    System.out.println(c == b); // true, c, b 均指向堆
    System.out.println(c == d); // true, c, d 均指向堆
}

【分析：】
    例四 与 例五 的区别在于 intern() 执行时机不同，且两者输出结果相同。
    JDK 8 中 intern() 执行时，若字符串常量池中 equals 未比较出相同数据，则将当前对象的引用地址 复制一份并放入常量池。
    若存在数据，则返回常量池中数据的引用地址。
    
    例四中，new String() 执行后，常量池中不存在 "hello"，
    但 String c = "hello" 执行后，常量池中存在 "hello"，从而 intern() 获取的是常量池中的引用地址。
    也即 b 为指向 堆的引用，c,d 均为指向常量池的引用。
    
    例五中，new String() 执行后，常量池中不存在 "hello"，
    intern() 执行后会将当前对象地址（指向堆的引用）复制并放入常量池，从而 String c = "hello" 获取的是常量池的引用地址。
    也即 b,c,d 获取的均是指向 堆 的引用。

对例四、例五进行一下延伸。

【例六：】
public static void main(String[] args) {
    String a = new String("hello") + new String("world");
    String b = "helloworld";
    String c = a.intern();
    System.out.println(System.identityHashCode(a));
    System.out.println(System.identityHashCode(b));
    System.out.println(System.identityHashCode(c));
    System.out.println(b == a); // false, a 指向堆, b 指向常量池
    System.out.println(b == c); // true, b、c 均指向常量池
}

【例七：】
public static void main(String[] args) {
    String a = new String("hello") + new String("world");
    String c = a.intern();
    String b = "helloworld";
    System.out.println(System.identityHashCode(a));
    System.out.println(System.identityHashCode(b));
    System.out.println(System.identityHashCode(c));
    System.out.println(b == a); // true, a、b 均指向堆,
    System.out.println(b == c); // true, b、c 均指向堆
}

【分析：】
    涉及到变量字符串拼接，会触发 StringBuilder 进行相关操作。
    最终触发 toString() 转为 String，其内部调用的是 String(char value[], int offset, int count) 构造方法，
    此方法在堆中创建 字符串 但不会向常量池中添加数据（与 例四、例五 是同样的场景）。

posted @ 2023-04-12 17:39 黄河大道东阅读(27) 评论(0) 编辑收藏举报

刷新页面返回顶部

黄河大道东

慎独

JVM—String字符串（二）

一、JDK 8 版本下 JVM 对象的分配、布局、访问（概述）

1、对象的创建过程

（1）前言

（2）对象的创建的几种常见方式

（3）对象创建步骤

2、对象内存布局

（1）对象头（Header）

（2）实例数据（Instance Data）

（4）对齐填充（Padding）

3、对象访问定位（句柄访问、直接指针）

（1）问题

（2）句柄访问

（3）直接访问（HotSpot 使用）

二、JDK8 中的 String

1、String 基本概念（JDK9 稍作改变）

（1）基本概念

（2）赋值方式

2、字符串常量池（String Pool）、String 不可变性

（1）字符串常量池（String Pool）

（2）String 不可变性

（3）常见场景（修改引用地址）

3、String 拼接操作 -- 笔试题

（1）拼接操作可能存在的情况

（2）常量（字面量）拼接 -- 拼接结果存于常量池

（3）final 修饰的变量拼接（可以理解为常量） -- 拼接结果存于常量池

（4）一般变量拼接 -- 拼接结果存于堆

（5）拼接结果调用 intern 方法 -- 结果存放于常量池

4、String 使用 new 关键字创建对象问题 -- 笔试题

（1）new String("hello") 会创建几个对象？

（2）new String("hello") + new String("world") 创建了几个对象？

5、String 中的 intern() 相关问题 -- 笔试题

（1）intern() 作用

（2）不同 JDK 版本中 intern() 使用的区别

（3）使用 JDK8 演示 intern()

黄河大道东

慎独

JVM—String字符串（二）

一、JDK 8 版本下 JVM 对象的分配、布局、访问（概述）

1、对象的创建过程

（1）前言

（2）对象的创建的几种常见方式

（3）对象创建步骤

2、对象内存布局

（1）对象头（Header）

（2）实例数据（Instance Data）

（4）对齐填充（Padding）

3、对象访问定位（句柄访问、直接指针）

（1）问题

（2）句柄访问

（3）直接访问（HotSpot 使用）

二、JDK8 中的 String

1、String 基本概念（JDK9 稍作改变）

（1）基本概念

（2）赋值方式

2、字符串常量池（String Pool）、String 不可变性

（1）字符串常量池（String Pool）

（2）String 不可变性

（3）常见场景（修改引用地址）

3、String 拼接操作 -- 笔试题

（1）拼接操作可能存在的情况

（2）常量（字面量）拼接 -- 拼接结果存于常量池

（3）final 修饰的变量拼接（可以理解为常量） -- 拼接结果存于常量池

（4）一般变量拼接 -- 拼接结果存于 堆

（5）拼接结果调用 intern 方法 -- 结果存放于常量池

4、String 使用 new 关键字创建对象问题 -- 笔试题

（1）new String("hello") 会创建几个对象？

（2）new String("hello") + new String("world") 创建了几个对象？

5、String 中的 intern() 相关问题 -- 笔试题

（1）intern() 作用

（2）不同 JDK 版本中 intern() 使用的区别

（3）使用 JDK8 演示 intern()

（4）一般变量拼接 -- 拼接结果存于堆