面试HashMap你都扛不住，还想拿到offer?

当我们面试Java开发岗位时，面试官问的频率出现最多的问题，就是这个HashMap，不管是传统型公司还是互联公司，HashMap是必问的，所以作者爆肝整理了HashMap的23个问题以及答案，请查收！

1、你知道HashMap的数据结构吗？

HashMap底层是基于数组 + 链表实现的，不过在 jdk1.7 和 1.8 中具体实现稍有不同

HashMap采用Entry数组来存储key-value对，每一个键值对组成了一个Entry实体，Entry类实际上是一个单向的链表结构，它具有Next指针，可以连接下一个Entry实体。只是在JDK1.8中，链表长度大于8的时候，链表会转成红黑树！

2、什么是Hash冲突，如何解决Hash冲突？

哈希函数的设计至关重要，好的哈希函数会尽可能地保证计算简单和散列地址分布均匀，但是我们需要清楚的是数组是一块连续的固定长度的内存空间，再好的哈希函数也不能保证得到的存储地址绝对不发生冲突。那么哈希冲突如何解决呢？哈希冲突的解决方案有多种:开放定址法（发生冲突，继续寻找下一块未被占用的存储地址），再散列函数法，链地址法(数组+链表的形式)。

3、用LinkedList代替数组结构可以吗？有什么优缺点？

因为用数组效率最高！在HashMap中，定位桶的位置是利用元素的key的哈希值对数组长度取模得到。此时，我们已得到桶的位置。显然数组的查找效率比LinkedList大；

4、HashMap何时扩容以及它的扩容机制？

如果bucket满了(超过load factor*current capacity)，就要resize。load factor为0.75，为了最大程度避免哈希冲突current capacity为当前数组大小

5、为何HashMap的数组长度一定是2的次幂？

因为2的n次方实际就是1后面n个0，2的n次方-1，实际就是n个1。

例如长度为8时候，3&(8-1)=3 2&(8-1)=2，不同位置上，不碰撞。

而长度为5的时候，3&(5-1)=0 2&(5-1)=0，都在0上，出现碰撞了。

所以，保证容积是2的n次方，是为了保证在做(length-1)的时候，每一位都能&1,保证地址散列均匀分布

6、说一下HashMap在1.7中put元素的过程？

判断当前数组是否需要初始化。
如果 key 为空，则 put 一个空值进去。
根据 key 计算出 hashcode。
根据计算出的 hashcode 定位出所在桶。
如果桶是一个链表则需要遍历判断里面的 hashcode、key 是否和传入 key 相等，如果相等则进行覆盖，并返回原来的值。
如果桶是空的，说明当前位置没有数据存入；新增一个 Entry 对象写入当前位置

当调用 addEntry 写入 Entry 时需要判断是否需要扩容。
如果需要就进行两倍扩充，并将当前的 key 重新 hash 并定位。
而在 createEntry 中会将当前位置的桶传入到新建的桶中，如果当前桶有值就会在位置形成链表。

7、说一下HashMap中get元素的过程？

首先也是根据 key 计算出 hashcode，然后定位到具体的桶中。
判断该位置是否为链表。
不是链表就根据 key、key 的 hashcode 是否相等来返回值。
为链表则需要遍历直到 key 及 hashcode 相等时候就返回值。
啥都没取到就直接返回 null

8、说一下HashMap在1.8中put元素的过程？

过程跟1.7差不多，但是多了一些判断：

当前链表的大小是否大于预设的阈值，大于时就要转换为红黑树；
如果当前桶已经为红黑树，那就要按照红黑树的方式写入数据；

9、说一下HashMap在1.8中get元素的过程？

首先将 key hash 之后取得所定位的桶。
如果桶为空则直接返回 null 。
否则判断桶的第一个位置(有可能是链表、红黑树)的 key 是否为查询的 key，是就直接返回 value。
如果第一个不匹配，则判断它的下一个是红黑树还是链表。
红黑树就按照树的查找方式返回值。
不然就按照链表的方式遍历匹配返回值。

10、HashMap在JDK8做了哪些优化？

由数组+链表的结构改为数组+链表+红黑树。
优化了高位运算的hash算法：h^(h>>>16)
扩容后，元素要么是在原位置，要么是在原位置再移动2次幂的位置，且链表顺序不变。

11、为什么在解决Hash冲突的时候，不直接用红黑树？而是选择优先使用链表，再转红黑树？

因为红黑树需要进行左旋，右旋，变色这些操作来保持平衡，而单链表不需要；
当元素小于8个当时候，此时做查询操作，链表结构已经能保证查询性能；
当元素大于8个的时候，此时需要红黑树来加快查询速度，但是新增节点的效率变慢了；
如果一开始就用红黑树结构，元素太少，新增效率又比较慢，无疑这是浪费性能的；

12、不用红黑树用二叉树可以吗？

可以。但是二叉查找树在特殊情况下会变成一条线性结构（这就跟原来使用链表结构一样了，造成很深的问题），遍历查找会非常慢。

13、当链表转换成红黑树后，什么时候退化为链表？

扩容 resize()时，红黑树拆分成的树的结点数小于等于临界值6个，则退化成链表。
移除元素 remove()时，在removeTreeNode()方法会检查红黑树是否满足退化条件，与结点数无关。如果红黑树根root为空，或者root的左子树/右子树为空，root.left.left根的左子树的左子树为空，都会发生红黑树退化成链表。

14、HashMap在并发条件下会有什么问题？

多线程扩容，引起的死循环问题
多线程put的时候可能导致元素丢失
put非null元素后get出来的却是null

15、在JDK8中还有这些问题吗？

在jdk1.8中，死循环问题已经解决。其他两个问题还是存在

16、HashMap键可以是Null吗？

必须可以，key为null的时候，hash算法最后的值以0来计算，也就是放在数组的第一个位置。

17、你一般使用什么作为HashMap的key?

一般用Integer、String这种不可变类当HashMap当key，而且String最为常用。

因为字符串是不可变的，所以在它创建的时候hashcode就被缓存了，不需要重新计算。这就使得字符串很适合作为Map中的键，字符串的处理速度要快过其它的键对象。这就是HashMap中的键往往都使用字符串。
因为获取对象的时候要用到equals()和hashCode()方法，那么键对象正确的重写这两个方法是非常重要的,这些类已经很规范的覆写了hashCode()以及equals()方法。

18、当使用对象作为HashMap的Key时有什么问题吗？

要重写equals和hashcode方法。否则会出现以下问题：

hashcode可能发生改变，导致put进去的值，无法get出，如下所示

输出值如下：

19、HashMap是线程安全的吗？如何实现线程安全？

HashMap是线程不安全的。

实现方式：

通过Collections.synchronizedMap()来封装所有不安全的HashMap的方法,就连toString, hashCode都进行了封装，就是为每一个方法添加了synchronized关键字进行修饰。使用的是的synchronized方法,是一种悲观锁.在进入之前需要获得锁,确保独享当前对象,然后做相应的修改/读取。方式简单粗暴，但是效率低。
使用ConcurrentHashMap。只有在需要修改对象时,比较和之前的值是否被人修改了,如果被其他线程修改了,那么就会返回失败,是一种无锁的实现。基于CAS实现，类似于乐观锁机制。ConcurrentHashMap采用了"锁分段"策略,ConcurrentHashMap的主干是一个一个Segment组,在ConcurrentHashMap中,一个Segment就是一个子哈希表,Segment里维护了一个HashEntry数组，并发环境下，对于不同Segment的数据进行操作是不用考虑锁竞争的，对于同一个Segment的操作才需考虑线程同步。理论上就允许16个线程并发执行。

20、请谈谈ConcurrentHashMap底层实现原理？

在JDK7中ConcurrentHashMap采用了"锁分段"策略,ConcurrentHashMap的主干是一个一个Segment组,在ConcurrentHashMap中,一个Segment就是一个子哈希表,Segment里维护了一个HashEntry数组，并发环境下，对于不同Segment的数据进行操作是不用考虑锁竞争的，对于同一个Segment的操作才需考虑线程同步。理论上就允许16个线程并发执行。

21、ConcurrentHashMap的size()方法实现原理？

要统计整个ConcurrentHashMap的元素个数，可以将每个Segment的count相加，count是volatile变量，可以保证读到的是最新值，但count可能会在累加过程中发生改变，导致结果不正确。
ConcurrentHashMap采用HashMap中的“快速失败”机制，即设置一个modCount变量，在put，remove，clean方法中都让modCount++，先尝试两次通过不对Segment加锁的方式统计Size，若发现前后的modCount不一致，则说明容器大小发生了变化，此时再通过锁住所有Segment的put，remove，clean方法计算count。

22、ConcurrentHashMap中put过程？

因为volatile不保证原子性，所以在put操作中需要对Segment加锁。

put操作分为两步：

是否需要扩容
在插入元素前先判断Segment里的HashEntry数组是否超过容量（cap*loadFactor），如果超过阈值，就进行扩容。值得一提的是，在HashMap中，是先插入元素后再检查是否达到容量，有可能造成扩容之后再也没有新元素插入，造成空间浪费。
举个例子，在ConcurrentHashMap中，现有元素正好等于容量，那么就先判断是否超过容量（没有超过），那么添加新元素（此时超出容量一个元素，但没有扩容）。而如果是HashMap，则先插入这个元素，发现超出容量，于是扩容，可再也没有新的元素添加进来了，于是造成了浪费。
定位元素位置
遍历HashEntry链表，找到对应元素位置并更新

23、HashMap和HashTable的区别？

HashMap基于数组和链表实现。不考虑Hash冲突的情况下，仅需一次定位就能找到元素。比如在新增元素的时候，通过Hash函数将元素定位Hash表中某个位置，直接将数据存入到该地址上，当我们查找或者删除元素，可以直接通过Hash函数定位到该数据。但是没有什么事情都是完美的，如果两个不同的元素，通过哈希函数得出的实际存储地址相同怎么办？也就是说，当我们对某个元素进行哈希运算，得到一个存储地址，然后要进行插入的时候，发现已经被其他元素占用了，其实这就是所谓的哈希冲突，也叫哈希碰撞。HashMap采用了链地址法，也就是数组+链表的方式。把相同Hash值的数据放在了链表上。当HashMap中的链表出现越少，性能才会越好。当发生哈希冲突并且size大于阈值的时候，需要进行数组扩容，扩容时，需要新建一个长度为之前数组2倍的新的数组，然后将当前的Entry数组中的元素全部传输过去，扩容后的新数组长度为之前的2倍，所以扩容相对来说是个耗资源的操作。HashMap继承自AbstractMap,HashMap允许key、value为空。HashMap默认容量是16，且负载因子是0.75。HashMap是线程不安全的，效率高。
HashTable和HashMap的实现原理几乎一样，HashTable不允许key和value为null；HashTable是线程安全的。但是HashTable线程安全的策略实现代价却太大了，简单粗暴，get/put所有相关操作都是synchronized的，这相当于给整个哈希表加了一把大锁，多线程访问时候，只要有一个线程访问或操作该对象，那其他线程只能阻塞，相当于将所有的操作串行化，在竞争激烈的并发场景中性能就会非常差。

以上是整理的比较全面的HashMap面试题，大家记住答案的同时，最好还是理解其原理！！！

posted @ 2021-09-13 22:03 猫鱼吐泡泡阅读(369) 评论(0) 收藏举报

刷新页面返回顶部

猫鱼吐泡泡

公众号：猫鱼吐泡泡

面试HashMap你都扛不住，还想拿到offer?

公告