Java HashMap源码解读(JDK17)

HashMap介绍

HashMap是Map接口的实现类，基于哈希表来存储键值对。

HashMap可以存储null的key和value，可以允许多个value为null，但是只能允许一个key为null。
JDK1.8之前的HashMap底层数据结构采用数组+链表实现，JDK1.8之后采用数组+链表/红黑树实现。数组是HashMap的主体，采用拉链法（链表）解决哈希冲突，当链表长度大于等于阈值（默认为8）时，链表会转换为红黑树（链表转红黑树之前会判断，数组长度小于64时会优先扩容数组）；当红黑树节点小于等于6时，红黑树会退化为链表。
HashMap的默认大小是16，之后每次扩容，容量变成原来的2倍。
另外，HashMap不是线程安全的，在多线程环境下，推荐使用ConcurrentHashMap或HashTable（渐被淘汰）。

常用方法

Map<Integer, String> map = new HashMap<>();
//存入键值对
map.put(1, "Java");
map.put(2, "Python");
map.put(3, "C++");
map.put(4, "Rust");
map.put(5, "Go");
//通过key获取value
System.out.println(map.get(1));
//查找hashmap中是否有对应的key，没有则存入默认的value
System.out.println(map.getOrDefault(10, "code"));
//根据key删除元素
map.remove(10);
//查询是否有该key
System.out.println(map.containsKey(10));

HashMap核心源码分析

下面代码是对Java17版本的HashMap进行分析。

类属性

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
	// 序列号
    private static final long serialVersionUID = 362498820763181265L;
	// 默认容量大小16
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
	// 最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;
	// 默认负载因子0.75
    static final float DEFAULT_LOAD_FACTOR = 0.75f;
	// 链表转红黑树的阈值
    static final int TREEIFY_THRESHOLD = 8;
	// 红黑树转链表的阈值
    static final int UNTREEIFY_THRESHOLD = 6;
	// 转成红黑树时数组的最小容量
    static final int MIN_TREEIFY_CAPACITY = 64;
	// 数组
    transient Node<K,V>[] table;
	// 存放具体元素的集合
    transient Set<Map.Entry<K,V>> entrySet;
	// 存放元素的个数，不等于数组长度
    transient int size;
	// 记录HashMap增删元素导致结构改动的次数
    transient int modCount;
	// 扩容的阈值 = 当前容量 * 负载因子
    int threshold;
	//负载因子
    final float loadFactor;

负载因子loadFactor：负载因子 = 数组存放的元素 / 数组大小，负载因子越接近1，则数组存放的元素越密集，发生哈希碰撞的概率就越大，负载因子越接近0，数组中存放的元素就越分散，发生哈希碰撞的概率也就越小。HashMap默认0.75，可以保证时间和空间上的平衡。

threshold扩容阈值：threshold = capability * loadFactor，当size>threshold时就会触发数组的扩容。

构造方法

HashMap有4个构造方法。

//默认构造方法
public HashMap() {
	this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

//指定初始化容量和负载因子
public HashMap(int initialCapacity, float loadFactor) {
	if (initialCapacity < 0)
		throw new IllegalArgumentException("Illegal initial capacity: " +
										   initialCapacity);
	if (initialCapacity > MAXIMUM_CAPACITY)
		initialCapacity = MAXIMUM_CAPACITY;
	if (loadFactor <= 0 || Float.isNaN(loadFactor))
		throw new IllegalArgumentException("Illegal load factor: " +
										   loadFactor);
	this.loadFactor = loadFactor;
	this.threshold = tableSizeFor(initialCapacity);
}

//指定初始化容量
public HashMap(int initialCapacity) {
	this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//传入一个map
public HashMap(Map<? extends K, ? extends V> m) {
	this.loadFactor = DEFAULT_LOAD_FACTOR;
	putMapEntries(m, false);
}

put

HashMap的put方法实际调用了putVal方法来插入键值对：

public V put(K key, V value) {
	return putVal(hash(key), key, value, false, true);
}

对于putVal方法，参数的意思分别是：
hash：调用hash方法计算哈希值；
key：传入key；
value：传入value；
onlyIfAbsent：如果为true，当键相同时不修改已存在的值；
evict：如果为false则数组处于创建模式。

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
			   boolean evict) {
	//tab表示数组，p表示当前插入的节点
	Node<K,V>[] tab; Node<K,V> p; int n, i;
	//如果数组为空则调用resize()创建一个数组
	if ((tab = table) == null || (n = tab.length) == 0)
		n = (tab = resize()).length;
	//判断插入位置是否哈希冲突，如果不冲突则直接创建新节点插入
	if ((p = tab[i = (n - 1) & hash]) == null)
		tab[i] = newNode(hash, key, value, null);
	else {
		//处理冲突
		Node<K,V> e; K k;
		//判断table[i]中的元素是否与插入的key一样，如果一样就先用变量e保存这个节点，待后续用新值替换旧值。
		if (p.hash == hash &&
			((k = p.key) == key || (key != null && key.equals(k))))
			e = p;
		//判断插入的是红黑树还是链表，是红黑树则调用putTreeVal插入到红黑树中
		else if (p instanceof TreeNode)
			e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
		else {
			//如果是链表，则遍历链表到尾部插入新节点
			for (int binCount = 0; ; ++binCount) {
				//到达链表尾部，创建新节点插入
				if ((e = p.next) == null) {
					p.next = newNode(hash, key, value, null);
					//如果链表长度达到红黑树化阈值，则转为红黑树
					if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
						treeifyBin(tab, hash);
					break;
				}
				//判断链表中的节点key与插入的key是否相等，相等则退出遍历
				if (e.hash == hash &&
					((k = e.key) == key || (key != null && key.equals(k))))
					break;
				p = e;
			}
		}
		//处理待插入key已存在的节点，用新值替换旧值，并返回旧值。
		if (e != null) { // existing mapping for key
			V oldValue = e.value;
			if (!onlyIfAbsent || oldValue == null)
				e.value = value;
			afterNodeAccess(e);
			return oldValue;
		}
	}
	//结构修改计数
	++modCount;
	//元素个数大于阈值则扩容
	if (++size > threshold)
		resize();
	afterNodeInsertion(evict);
	return null;
}

resize

resize()方法用来初始化hashmap和扩容，当前存放元素数量达到threshold时就会触发扩容，按照2的幂进行扩容。

final Node<K,V>[] resize() {
	//保存旧哈希表
	Node<K,V>[] oldTab = table;
	int oldCap = (oldTab == null) ? 0 : oldTab.length;
	int oldThr = threshold;
	int newCap, newThr = 0;
	if (oldCap > 0) {
		if (oldCap >= MAXIMUM_CAPACITY) {
			threshold = Integer.MAX_VALUE;
			return oldTab;
		}
		//计算新哈希表容量，旧容量左移一位，相当于*2
		//如果旧容量>=默认初始容量则新阈值*2
		else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
				 oldCap >= DEFAULT_INITIAL_CAPACITY)
			newThr = oldThr << 1; // double threshold
	}
	else if (oldThr > 0) // initial capacity was placed in threshold
		newCap = oldThr;
	else {               // zero initial threshold signifies using defaults
		newCap = DEFAULT_INITIAL_CAPACITY;
		newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
	}
	//更新阈值
	if (newThr == 0) {
		float ft = (float)newCap * loadFactor;
		newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
				  (int)ft : Integer.MAX_VALUE);
	}
	threshold = newThr;
	@SuppressWarnings({"rawtypes","unchecked"})
	Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
	table = newTab;
	if (oldTab != null) {
	//将旧哈希表的元素移到新哈希表中
		for (int j = 0; j < oldCap; ++j) {
			Node<K,V> e;
			if ((e = oldTab[j]) != null) {
				oldTab[j] = null;
				if (e.next == null)
					//只有一个节点直接计算新位置放入
					newTab[e.hash & (newCap - 1)] = e;
				else if (e instanceof TreeNode)
					//如果是红黑树则对其拆分成两个子树再映射
					((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
				else { // preserve order
					//如果是多个链表的节点，则将原链表拆分从两个链表
					Node<K,V> loHead = null, loTail = null;
					Node<K,V> hiHead = null, hiTail = null;
					Node<K,V> next;
					do {
						next = e.next;
						if ((e.hash & oldCap) == 0) {
							if (loTail == null)
								loHead = e;
							else
								//尾插法插入节点
								loTail.next = e;
							loTail = e;
						}
						else {
							if (hiTail == null)
								hiHead = e;
							else
								hiTail.next = e;
							hiTail = e;
						}
					} while ((e = next) != null);
					//链表1存于原索引位置
					if (loTail != null) {
						loTail.next = null;
						newTab[j] = loHead;
					}
					//链表2存于[原索引+旧容量]位置
					if (hiTail != null) {
						hiTail.next = null;
						newTab[j + oldCap] = hiHead;
					}
				}
			}
		}
	}
	return newTab;
}

get

get方法在hashmap中查找键所对应的值，实际调用的是getNode方法。

public V get(Object key) {
	Node<K,V> e;
	return (e = getNode(key)) == null ? null : e.value;
}

final Node<K,V> getNode(Object key) {
	Node<K,V>[] tab; Node<K,V> first, e; int n, hash; K k;
	//fisrt获取数组这个桶位置下的第一个节点
	if ((tab = table) != null && (n = tab.length) > 0 &&
		(first = tab[(n - 1) & (hash = hash(key))]) != null) {
		//如果key相等则直接返回该节点
		if (first.hash == hash && // always check first node
			((k = first.key) == key || (key != null && key.equals(k))))
			return first;
		//当前桶中不只一个节点
		if ((e = first.next) != null) {
			if (first instanceof TreeNode)
				//返回树节点
				return ((TreeNode<K,V>)first).getTreeNode(hash, key);
			do {
				//查找链表节点
				if (e.hash == hash &&
					((k = e.key) == key || (key != null && key.equals(k))))
					return e;
			} while ((e = e.next) != null);
		}
	}
	return null;
}

HashMap遍历方式

HashMap的遍历，大体上可分为4类，而每种类型下又有不同的实现方式，总共的遍历方式可分为7种：

迭代器遍历：
- 使用迭代器对EntrySet遍历；
- 使用迭代器对KeySet遍历；
foreach遍历：
- 使用foreach对EntrySet遍历；
- 使用foreach对KeySet遍历；
lambda表达式遍历；
streams API遍历：
- Streams API单线程方式遍历；
- Streams API多线程方式遍历。

下面列举出几种遍历方式，首先创建并初始化一个HashMap：

public class HashMapTest {
    public static void main(String[] args) {
        Map<Integer, String> map = new HashMap<>();
        map.put(1, "Java");
        map.put(2, "Python");
        map.put(3, "C++");
        map.put(4, "Rust");
        map.put(5, "Go");

        System.out.println("1. 迭代器遍历EntrySet");
        traverseByIterator1(map);
        System.out.println("2. 迭代器遍历KeySet");
        traverseByIterator2(map);
        System.out.println("3. foreach遍历EntrySet");
        traverseByForeach1(map);
        System.out.println("4. foreach遍历KeySet");
        traverseByForeach2(map);
        System.out.println("5. lambda表达式遍历");
        traverseByLambda(map);
        System.out.println("6. streams API单线程");
        traverseByStreams1(map);
        System.out.println("7. streams API多线程");
        traverseByStreams2(map);
    }
}

迭代器

EntrySet

public static void traverseByIterator1(Map map) {
	Iterator<Map.Entry<Integer, String>> iterator = map.entrySet().iterator();
	while (iterator.hasNext()) {
		Map.Entry<Integer, String> entry = iterator.next();
		System.out.println(entry.getKey() + " : " + entry.getValue());
	}
}

输出：

1. 迭代器遍历EntrySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

KeySet

public static void traverseByIterator2(Map map) {
	Iterator<Integer> iterator = map.keySet().iterator();
	while (iterator.hasNext()) {
		Integer key = iterator.next();
		System.out.println(key + " : " + map.get(key));
	}
}

输出：

2. 迭代器遍历KeySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

foreach

对于foreach遍历，内部也是通过创建迭代器来遍历

EntrySet

public static void traverseByForeach1(Map<Integer, String> map) {
	for (Map.Entry<Integer, String> entry : map.entrySet()) {
		System.out.println(entry.getKey() + " : " + entry.getValue());
	}
}

输出：

3. foreach遍历EntrySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

KeySet

public static void traverseByForeach2(Map<Integer, String> map) {
	for (Integer key : map.keySet()) {
		System.out.println(key + " : " + map.get(key));
	}
}

输出：

4. foreach遍历KeySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

lambda表达式

public static void traverseByLambda(Map map) {
	map.forEach((key, value) -> {
		System.out.println(key + " : " + value);
	});
}

输出：

5. lambda表达式遍历
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

streams API

单线程

public static void traverseByStreams1(Map<Integer, String> map) {
	map.entrySet().stream().forEach((entry) -> {
		System.out.println(entry.getKey() + " : " + entry.getValue());
	});
}

输出：

6. streams API单线程
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

多线程

public static void traverseByStreams2(Map<Integer, String> map) {
	map.entrySet().parallelStream().forEach((entry) -> {
		System.out.println(entry.getKey() + " : " + entry.getValue());
	});
}

输出：

7. streams API多线程
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

遍历时删除元素

在上述几种遍历方式中，有些可以在遍历过程中安全删除元素，有些则会抛出ConcurrentModificationException异常，这是因为遍历过程中会比较modCount != expectedModCount，不相等就会抛出异常，具体分析请往下看。

迭代器：

Iterator<Map.Entry<Integer, String>> iterator = map.entrySet().iterator();
while (iterator.hasNext()) {
	Map.Entry<Integer, String> entry = iterator.next();
	if (entry.getKey() == 1) {
		iterator.remove();
	}
}

通过迭代器遍历，并使用迭代器的remove()方法可以正常删除元素。
成功的原因是，调用iterator.remove()方法最后会对expectedModCount值进行更新，这样就保证了迭代器调用next()获取下一个元素时，检查modCount == expectedModCount。

foreach：

for (Map.Entry<Integer, String> entry : map.entrySet()) {
	if (entry.getKey() == 2) {
		map.remove(entry.getKey());
	}
}

在foreach遍历的过程中调用Map的remove()方法会抛出ConcurrentModificationException异常。
通过查看源码得知，抛出异常的原因是删除元素之后，进行下一个元素的遍历时，比较变量modCount与expectedModCount不相等：

HashMap中的变量modCount记录了HashMap的修改次数，HashIterator中的变量expectedModCount在遍历前会初始化与modCount相等，当删除一个元素时，++modCount，之后迭代器通过next()获取下一个元素时，检查modCount != expectedModCount，就会抛出异常。
此外，这种检查到错误就抛出异常并停止程序后续执行的机制被称为fail-fast机制。

lambda：

map.forEach((key, value) -> {
	if (key == 1) {
		map.remove(key);
	}
});

使用lambda表达式遍历时删除也会抛出ConcurrentModificationException。

可以通过removeIf()对key进行判断后删除。

map.keySet().removeIf(key -> key == 1);
map.forEach((key, value) -> {
	System.out.println(key + value);
});

sterams:

map.entrySet().stream().forEach((entry) -> {
	if (entry.getKey() == 1) {
		map.remove(entry.getKey());
	}
});

使用stream遍历删除同样抛出ConcurrentModificationException。
可以使用filter()过滤掉不需要的数据再遍历，但是这种方式不会真正删除hashmap中的元素。

map.entrySet().stream().filter(e -> 1 != e.getKey()).forEach((entry) -> {
	if (entry.getKey() == 1) {
		System.out.println(entry.getKey());
	}
});

HashMap线程安全问题

HashMap线程不安全体现在：

JDK1.7中，多线程扩容时，调用了transfer方法，会导致链表成环，造成死循环、数据丢失。
JDK1.8中，多线程put操作，调用putVal方法，会导致数据覆盖。

原因

JDK1.7：

扩容时，调用transfer方法将原哈希表的元素转移到新哈希表，采用头插法插入节点到链表中，链表的顺序会反转，在多线程操作下就会形成环形链表。

void transfer(Entry[] newTable, boolean rehash) {
	int newCapacity = newTable.length;
	for (Entry<K,V> e : table) {
		while(null != e) {
			Entry<K,V> next = e.next;
			if (rehash) {
				e.hash = null == e.key ? 0 : hash(e.key);
			}
			int i = indexFor(e.hash, newCapacity);
			e.next = newTable[i];
			newTable[i] = e;
			e = next;
		}
	}
}

扩容造成死循环

扩容造成数据丢失

JDK1.8：

多线程情况下数据覆盖
在JDK1.8中，链表插入节点改成尾插法，因此不会出现链表成环的情况，但是在多线程环境下也会出现数据覆盖问题。
在putVal方法中，会判断如果没有哈希碰撞则直接插入元素。

if ((p = tab[i = (n - 1) & hash]) == null)
	tab[i] = newNode(hash, key, value, null);

如果线程A和线程B同时put操作，恰好两个线程插入的key的hash一样，并且数组该位置为空，线程A和线程B都会进入这行代码。当线程A执行完if判断还未插入数据时被挂起，线程B正常执行并插入数据，之后线程A获得时间片，继续执行插入数据的操作，就会直接覆盖掉之前线程B的数据。

此外，putVal方法末尾在判断是否需要扩容时的代码：

if (++size > threshold)

因为++size不是原子性操作，如果存在两个线程A和B同时put，线程A从主内存获取size值并+1，但此时A时间片耗尽并挂起，更新后的size值并未同步到主内存，线程B也从主内存读取size值并+1，完成put操作并将更新后的size写回主内存，后续线程A再次获取CPU并继续执行，完成put操作后也将size写回主内存。这样，线程A和B都插入了一个元素，但是size只增加了1。

参考资料

posted @ 2023-10-16 18:05 KRDecad3 阅读(282) 评论(0) 收藏举报

刷新页面返回顶部

Loading

KRDecad3's Blog

Java HashMap源码解读(JDK17)

HashMap介绍

常用方法

HashMap核心源码分析

类属性

构造方法

put

resize

get

HashMap遍历方式

迭代器

EntrySet

KeySet

foreach

EntrySet

KeySet

lambda表达式

streams API

单线程

多线程

遍历时删除元素

HashMap线程安全问题

原因

JDK1.7：

JDK1.8：

参考资料

公告