十个问题带你了解和掌握java HashMap

一、前言

本篇内容是源于 “ 由阿里巴巴Java开发规约HashMap条目引发的故事”，并在此基础上加了自己的对HashMap更多的思考认识和整理。并且作为一名java开发工程师，应该是要了解和掌握的这些知识！

在《阿里巴巴java开发规约中》提到：

【推荐】集合初始化时，指定集合初始值大小。
说明：HashMap使用如下构造方法进行初始化，如果暂时无法确定集合大小，那么指定默认值（16）即可！

在进行本篇的阅读之前，首先请你花三分钟时间，思考面关于HashMap的十个问题，带着问题去阅读内容效果更好！
问题如下：

1.HashMap 是什么，实现原理？
2.HashMap 默认bucket（桶）数组多大？（上面已经给出），最大容量是多少？
3.如果new HashMap<>(19)，bucket数组多大？
4.HashMap 什么时候开辟bucket数组占用内存？
5.HashMap 何时扩容？
6.为什么String, Interger这样的包装类类适合作为HashMap的key（键）呢？
7.如果用自定义对象当做hashmap的key进行存储要注意什么？
8.当两个对象的hashcode相同会发生什么（如何解决hash冲突）？如果两个键的hashcode相同，你如何获取值对象？
9.HashMap 和 ConcurrentHashMap的区别？
10.jdk1.7和jdk1.8中HashMap的实现有哪些区别？

二：HashMap相关知识的整理和简单介绍

HashMap是基于哈希表的Map实现的，一个Key对应一个Value，允许使用null键和null值,不保证映射的顺序，特别是它不保证该顺序恒久不变！是非线程安全的的。

其中 “不保证映射的顺序，特别是它不保证该顺序恒久不变” 如何理解？


当哈希表中的条目数超出了当前容量与负载因子的乘积（ Capacity * LoadFactor）时的时候，哈希表进行rehash操作（即重建内部数据结构），此时映射顺序可能会被打乱！

1.HashMap 是什么，实现原理？

HashMap是一个存储key和value的集合，一个key对应一个value，实现原理是使用hash算法通过对key进行hash后存储哈希表（也称为哈希数组）中，哈希表（哈希数组）的每个元素都是一个单链表的头节点，链表是用来解决冲突的，如果不同的key映射到了数组的同一位置处，就将其放入单链表中。

如果容量不足（超过了阀值）时，同样会自动增长

看下图（jDK1.7）：

其中哈希表（哈希数组）和单链表的节点元素

2.HashMap 默认bucket（桶）数组多大？（上面已经给出），最大容量是多少？

 // 默认的初始容量（容量为HashMap中槽的数目）是16，且实际容量必须是2的整数次幂。    
	static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16  Capacity
	 // 默认加载因子为0.75   
	static final float DEFAULT_LOAD_FACTOR = 0.75f;  LoadFactor
	public HashMap() {
        this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
    }

	// 最大容量（必须是2的幂且小于2的30次方，传入容量过大将被这个值替换）  
	static final int MAXIMUM_CAPACITY = 1 << 30;

总结：默认值初始值为16，最大值2 的30次方。

3.如果new HashMap<>(19)，bucket数组多大？

HashMap 的 bucket 数组大小一定是2的幂，如果 new 的时候指定了容量且不是2的幂，
实际容量会是最接近(大于)指定容量的2的幂，比如 new HashMap<>(19)，比19大且最接近的2的幂是32，实际容量就是32。

//jdk1.7
	private void inflateTable(int toSize) {
        // Find a power of 2 >= toSize,  2的幂 >= toSize
        int capacity = roundUpToPowerOf2(toSize); //计算一定为2的幂

        threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
        table = new Entry[capacity];
        initHashSeedAsNeeded(capacity);
    }

4.HashMap 什么时候开辟bucket数组占用内存？

HashMap 在 new 后并不会立即分配bucket数组，而是第一次 put 时初始化**使用resize() 函数进行分配。（类似 ArrayList 在第一次 add 时分配空间）

5.HashMap 何时扩容？

数据 put 后，如果数据量超过threshold( Capacity * LoadFactor )，就要resize!

//jdk1.7
	void addEntry(int hash, K key, V value, int bucketIndex) {
		//每次加入键值对时，都要判断当前已用的size是否大于等于threshold(阀值)，如果大于等于，则进行扩容，将容量扩为原来容量的2倍。
        if ((size >= threshold) && (null != table[bucketIndex])) {
            resize(2 * table.length);
            hash = (null != key) ? hash(key) : 0;
            bucketIndex = indexFor(hash, table.length);
        }

        createEntry(hash, key, value, bucketIndex);
    }

resize()方法进行扩容，扩容是一个相当耗时的操作，因为它需要重新计算这些元素在新的数组中的位置并进行复制处理。（具体可以看源码，jdk1.8进行相应的优化）
在用HashMap的时，如果能提前预估下HashMap中元素的个数，这样有助于提高HashMap的性能。

6.为什么String, Interger这样的包装类类适合作为HashMap的key（键）呢？

String, Interger这样的wrapper类作为HashMap的键是再适合不过了，而且String最为常用。因为String是不可变的，也是final的，而且已经重写了equals()和hashCode()方法了。

其他的wrapper类也有这个特点。不可变性是必要的，因为为了要计算hashCode()，就要防止键值改变，如果键值在放入时和获取时返回不同的hashcode的话，那么就不能从HashMap中找到你想要的对象。不可变性还有其他的优点如线程安全。

如果你可以仅仅通过将某个field声明成final就能保证hashCode是不变的，那么请这么做吧。因为获取对象的时候要用到equals()和hashCode()方法，那么键对象正确的重写这两个方法是非常重要的。

如果两个不相等的对象返回不同的hashcode的话，那么碰撞的几率就会小些，这样就能提高HashMap的性能。

7.如果用自定义对象当做hashmap的key进行存储要注意什么？

这是问题6的延伸。如果一个自定义对象做为key，一定要注意对象的不可变性，否则可能导致存入Map中的数据无法取出，造成内存泄漏！

（1）.要注意这个对象是否为可变对象。

（2）.一定要重写hashcode方法和equals方法，因为在HashMap的源代码里面，是先比较HashCode是否相等，同时要满足引用相等或者equals相等。

可参考：危险！在HashMap中将可变对象用作Key

8.当两个对象的hashcode相同会发生什么（如何解决hash冲突）？如果两个键的hashcode相同，你如何获取值对象？

两个对象hashcode相同，它们在的哈希bucket中找到了相同位置，会发生“碰撞”。因为HashMap使用链表存储对象，这个Entry(包含有键值对的Map.Entry对象)会存储在链表中。可以参考问题1中的图！

当我们调用get()方法，HashMap会使用key的hashcode找到bucket位置，然后发现两个对象存储在一个哈希bucket中，找到bucket位置之后，会调用key.equals()方法去找到链表中正确的节点，最终找到要找的值对象。

9.HashMap 和 ConcurrentHashMap的区别？

说简单点就是HashMap是线程不安全的，单线程情况下使用；而ConcurrentHashMap是线程安全的，多线程使用！

可以使用 Collections.synchronizedMap(new HashMap<String, Integer>());将HashMap封装成线程安全的，其内部实现原理是使用了关键字synchronized。

10.jdk1.7和jdk1.8中HashMap的实现有哪些区别？

jdk1.7和jdk1.8的区别还是很多，下面介绍两个！
（1）：存储结构
如图（jDK1.8）

jdk1.7 ：static class Entry<K,V> implements Map.Entry<K,V> {

 jdk1.8 ：static class Node<K,V> implements Map.Entry<K,V> {

 jdk7内部使用使用Entry<K,V>而jdk1.8内部使用Node<K,V>，都是实现Map.Entry<K,V> ，最主要的区别就是列表长度大于8时转为红黑树！

在JDK1.7版本中.不管负载因子和Hash算法设计的再合理，也免不了会出现拉链（单链表）过长的情况，一旦出现拉链（单链表）过长，会严重影响HashMap的性能。

在JDK1.8版本中，对数据结构做了进一步的优化，引入了红黑树。而当链表长度太长（默认超过8）时，链表就转换为红黑树，利用红黑树快速增删改查的特点提高HashMap的性能，其中会用到红黑树的插入、删除、查找等算法。本文不再对红黑树展开讨论，
想了解更多红黑树数据结构的工作原理可以参考红黑树数据结构的工作原理

总结：

JDK7 中的 HashMap 采用数组+链表的结构来存储数据。

JDK8 中的 HashMap 采用数组+链表或红黑树的结构来存储数据。

（2）：一些操作方法的优化如resize
resize()用来第一次初始化，或者 put 之后数据超过了threshold（Capacity * LoadFactor）后扩容，这里具体不贴代码了，大概说明一下！

jdk1.7 直接扩容两倍，table.length * 2; 源码中使用resize(2 * table.length);

jdk1.8 优化数组下标计算： index = (table.length - 1) & hash ，由于 table.length 也就是capacity 肯定是2的N次方，使用 & 位运算意味着只是多了最高位，这样就不用重新计算 index，元素要么在原位置，要么在原位置+ oldCapacity

如果上面内容哪里有问题欢迎指出！或者你对上面的内容有自己的认识和理解也欢迎评论，希望互相沟通，共同成长！谢谢！

三：参考的博文

由阿里巴巴Java开发规约HashMap条目引发的故事
 java集合系列——Map之HashMap介绍（八）
HashMap的工作原理
 http://blog.csdn.net/ns_code/article/details/36034955
Java8系列之重新认识HashMap

四：更多知识学习

最后在推广一个我整理的java知识点，目录如下！有兴趣的可以点击阅读阅读一下！
java的线程安全、单例模式、JVM内存结构等知识学习和整理

**如果您觉得这篇博文对你有帮助，请点个赞，谢谢！** **如果帅气（美丽）、睿智（聪颖），和我一样简单善良的你看到本篇博文中存在问题，请指出，我虚心接受你让我成长的批评，谢谢阅读！
祝你今天开心愉快！**

欢迎访问我的csdn博客，我们一同成长！

"不管做什么，只要坚持下去就会看到不一样！在路上，不卑不亢!"

博客首页：http://blog.csdn.net/u010648555

posted @ 2017-10-20 18:43 阿飞云漫步阅读(703) 评论(0) 收藏举报

刷新页面返回顶部

阿飞云漫步

不管做什么，只要坚持下去就会看到不一样！ 在路上，不卑不亢!