HashMap源码分析

说明:基于jdk1.7

一、基本信息

hashmap的原理图如下

先来看看HashMap中每个节点的定义。HashMap中的每个节点元素称为Entry,Entry类是HashMap的静态内部类。通过声明可以知道,它实际上就是一个链表结构,多个Entry节点串起来就形成了链表。每个节点包含了<K,V>键值对,而next用于指向下一个Entry节点。

static class Entry<K,V> implements Map.Entry<K,V> {
    final K key;
    V value;
    Entry<K,V> next;
    int hash;
    ……
}

 

HashMap是由数组+链表的形式实现的,链表指的就是上面的Entry节点串联起来形成的链表。默认情况下,HashMap创建后会包含一个长度为16的数组,HashMap将每个数组的位置抽象成了一个桶(bucket)的概念,每个桶用来存放链表,每个桶对应一个链表!

属性

    //默认初始容量,16
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
    //最大容量    
    static final int MAXIMUM_CAPACITY = 1 << 30;
    //默认负载因子,0.75
    static final float DEFAULT_LOAD_FACTOR = 0.75f;
        
    static final Entry<?,?>[] EMPTY_TABLE = {};
    //【核心】HashMap的底层实现
    transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
    //元素数量
    transient int size;
    //阈值(容量*加载因子):当达到该值时,会进行rehash  
    int threshold;
    //负载因子(size/数组长度。当负载情况达到该值时,自动增加数组的容量,并进行再散列(重新将现有对象分布到容器中))        
    final float loadFactor;
    //修改次数       
    transient int modCount;
    
    static final int ALTERNATIVE_HASHING_THRESHOLD_DEFAULT = Integer.MAX_VALUE;

构造方法

public HashMap(int initialCapacity, float loadFactor)
public HashMap(int initialCapacity)
public HashMap()
public HashMap(Map<? extends K, ? extends V> m)

在初始化HashMap时,可以指定初始化容量,和负载因子。如果不指定,则使用定义的默认值。默认初始容量为16,默认负载因子为0.75。

对于指定了初始容量的构造方法,并不会将它作为HashMap的容量,而是选择大于该数字的第一个 2 的幂作为容量:(1->1、7->8、9->16)

HashMap(int initialCapacity) 
    -->HashMap(int initialCapacity, float loadFactor)
        -->tableSizeFor(initialCapacity)
        
    /**
     * Returns a power of two size for the given target capacity.
     */
    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

二、hash冲突解决

put方法

public V put(K key, V value) {
    //map为空表时,进行扩充
    if (table == EMPTY_TABLE) {
        inflateTable(threshold);
    }
    //如果key为null,直接定位到table[0]处,进行处理
    if (key == null)
        return putForNullKey(value);
    //计算key的hash值
    int hash = hash(key);
    //根据key的hash,定位key在table中索引
    int i = indexFor(hash, table.length);
    //判断key是否存在
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        Object k;
        //如果key已存在,则覆盖原value
        //【判断key相等】:也就是判断两个Object是否相等
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            //返回旧值(方法返回后,可能还要用到旧值)
            return oldValue;
        }
    }//key不存在       
    //修改次数+1
    modCount++;
    //添加<k,v>
    addEntry(hash, key, value, i);
    return null;
}

get方法

public V get(Object key) {
    //key为null和非null分别对应table数组的索引为0和非0位置。两种情况分开处理。
    //如果key为null
    if (key == null)
        return getForNullKey();
    //key非null时
    Entry<K,V> entry = getEntry(key);
    //返回key对应value值
    return null == entry ? null : entry.getValue();
}
 
private V getForNullKey() {
    if (size == 0) {
        return null;
    }
    //遍历下标为0处的Entry(类似链表),查找key
    for (Entry<K,V> e = table[0]; e != null; e = e.next) {
        //key存在,返回对应value值
        if (e.key == null)
            return e.value;
    }
    //不存在,返回null
    return null;
}
 
final Entry<K,V> getEntry(Object key) {
    if (size == 0) {
        return null;
    }
    //计算key的hash。如果key为null,则hash为0
    int hash = (key == null) ? 0 : hash(key);
    //通过hash定位key在数组中的下标。遍历所在下标处的Entry(链表结构),查找key
    for (Entry<K,V> e = table[indexFor(hash, table.length)];
         e != null;
         e = e.next) {
        Object k;
        //如果key存在,返回该Entry
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
            return e;
    }
    //key不存在,返回null
    return null;
}

实际上,如果能将put方法搞清楚了,get方法就基本是a little case.

①hash函数的选择

hash函数的构造方法有以下几种:

  1. 直接地址法
  2. 数字分析法
  3. 平方取中法
  4. 折叠法
  5. 除留余数法

hashmap使用的除留余数法,该方法最简单,是最常用的构造hash函数的方法。

②hash冲突处理

常用的处理冲突的方法有如下几种:

  • 开放地址法
  • 再哈希法:产生冲突时,使用其它的哈希构造函数计算得到另一个地址,如果再冲突,再换个哈希函数再计算,直到冲突不再发生。这种方法不易产生“聚集”,但增加了计算的时间。
  • 链地址法:也叫拉链法。冲突的元素链接在原有元素上,这样就形成了一个链表。在链表中的插入位置可以在表头,表中,也可以在中间。
  • 建立一个公共的溢出区

HashMap使用链地址法来解决hash冲突。

    void createEntry(int hash, K key, V value, int bucketIndex) {
        Entry<K,V> e = table[bucketIndex];
        //创建一个Entry,并插入到表头
        table[bucketIndex] = new Entry<>(hash, key, value, e);
        size++;
    }

当发生冲突时,在冲突的位置将冲突的节点串联起来形成链表,注意冲突时是在表头做插入,而并非追加到链表尾部。

三、扩容

HashMap元素个数达到阈值时,如果继续插入元素,则会进行扩容。会先将table容量扩容至原来的2倍,然后再进行扩容。具体步骤是:

1.扩容至原来的两倍

2.暂存原有的table,然后创建一个新的table

3.依次重新计算原有table中每个bucket的节点(Entry)的key的hash,找到在新table中即将插入的bucket位置。然后在该新位置处的

头结点指向原有位置处头节点。

void addEntry(int hash, K key, V value, int bucketIndex) {
    if ((size >= threshold) && (null != table[bucketIndex])) {
        //扩容到之前的2倍
        resize(2 * table.length);
        ……
    }
    ……
}
 
void resize(int newCapacity) {
    //暂存旧table
    Entry[] oldTable = table;
    int oldCapacity = oldTable.length;
    
    //旧容量达到了规定的最大容量值,则将阈值提高到Integer取值范围的最大值
    if (oldCapacity == MAXIMUM_CAPACITY) {
        threshold = Integer.MAX_VALUE;
        return;
    }
    //构建新table(容量为newCapacity)
    Entry[] newTable = new Entry[newCapacity];
    //将旧table中的全部数据转移到新table中
    transfer(newTable, initHashSeedAsNeeded(newCapacity));
    //引用指向新table
    table = newTable;
    //新table的阈值也相应的增大(但该值不能超过MAXIMUM_CAPACITY + 1)
    threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
 
void transfer(Entry[] newTable, boolean rehash) {
    int newCapacity = newTable.length;
    //外层循环控制table
    for (Entry<K,V> e : table) {
        //内存循环控制每个bucket位的链表的复制
        while(null != e) {
            //
            Entry<K,V> next = e.next;
            //重新计算key的hash(因为hashseed可能变了)
            if (rehash) {
                e.hash = (null == e.key) ? 0 : hash(e.key);
            }
            //通过key的hash定位新的bucket索引
            int i = indexFor(e.hash, newCapacity);
            
            e.next = newTable[i];
            //将原链表复制到新table的头部(直接引用原链表头节点)
            newTable[i] = e;
            //继续table的下一个bucket位
            e = next;
        }
    }
}

四、线程安全

由于hashmap是非线程安全的,所以在多线程下,会出现线程安全问题

①两个线程同时添加元素时,存在竞态条件。

如下,我们希望一个线程执行添加成功,另一个线程再添加时发现已存在,就不再添加。但实际情况可能是:当两个线程同时执行if条件时,都发现没有key,所以都执行了大括号内的代码,显然不安全。

if(!map.containsKey(key))
{
   map.put(key,value);
   return true;  
}

②两个线程同时添加元素时,都发现容量已经达到阈值,都需要进行扩容。扩容时会将原有的所有元素移动到新的table中。两个线程同时进行移动操作,显然会产生不安全的问题。

    void resize(int newCapacity) {
        //暂存旧table
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        
        //旧容量达到了规定的最大容量值,则将阈值提高到Integer取值范围的最大值
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }
 
        //构建新table(容量为newCapacity)
        Entry[] newTable = new Entry[newCapacity];
        //将旧table中的全部数据转移到新table中
        transfer(newTable, initHashSeedAsNeeded(newCapacity));
        table = newTable;
        
        //新table的阈值也相应的增大(但该值不能超过MAXIMUM_CAPACITY + 1)
        threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
    }

等等,不一而足。

③rehash导致链表成环,造成死循环。 

参考左耳朵耗子的在酷壳上的文章:疫苗:JAVA HASHMAP的死循环

 

总结

搞清楚下面几个问题,HashMap的知识就算完全掌握了。

1.HashMap的特点和工作原理?

2.HashMap的默认的初始容量?如果指定初始容量为1,7,9,则HashMap的实际容量会是多少?

默认初始容量为16。如果构造函数手动指定了一个数字作为容量,那么 Hash 会选择大于该数字的第一个 2 的幂作为容量。

如果指定的初始容量分别为1,7,9,则HashMap的实际容量为1、8、16

3.负载因子(load factor)的作用?如果容量达到阈值如何扩容?

随着越来越多的元素添加到HashMap,发生碰撞的情况也越来越多,链表可能会越来越长。而为了防止这种情况,所以设置了一个负载因子。

HashMap默认的负载因子是0.75。默认初始容量为16,也就是说达到12个元素时,就会达到阈值了。此时将table扩容到原来的2倍,并重新计算key的hash并将该元素添加到新的bucket位置中。

4.hash冲突如何处理?

处理冲突的方式有开放地址法、再哈希法、建立一个公共的溢出区、链地址法。而HashMap使用链地址法来处理冲突。

5.HashMap会有什么安全问题?

扩容时可能形成环

6.hashCode相同,对象是否相等?对象相等,是否有相同的hashCode?

hashCode相同,则会继续使用key的equals()方法来比较对象。所以hashCode相同,对象不一定相等。

对象相等,通过同一个hash函数当然得到的结果是一样的。所以对象相等,hashCode也一定相等。

7.为什么String,Integer这样的包装类适合作为HashMap的键?

HashMap是使用key的hash来定位位置的,如果我们做put操作后,对象发生了变化导致其hash发生变化,当我们再次做get操作时,定位显然可能就变了,结果就是该key不存在。

如下,当MyClass作为key时,如果put之前a=b=0,put完后,我们将a=b=1,显然hashCode就变了

public class MyClass {
    int a;
    int b;
    @Override
    public int hashCode() {
        final int prime = 31;
        int result = 1;
        result = prime * result + a;
        result = prime * result + b;
        return result;
    }
}

String,Integer都是final类型的,对象不会发生变化,也就不用担心put和get时hashcode不一致的问题。

8.如果使用自定义的对象来作为key,要注意些什么?

通过上一个问题,我们已经很明确了。①只要自定义的对象做put操作后不再发生变化就能用来作为key。当然使用时一定要小心,很容易疏忽而发生危险!

当然还要注意一点,通常情况下,对于自定义的对象来作为key,我们要同时覆盖hashCode()方法和equals()方法

Java 用自定义类型作为HashMap的键

9.ConcurrentHashMap和Hashtable有什么区别?

HashMap是非线程安全的,而Hashtable则是线程安全的。但是Hashtable使用的synchronized来实现同步,而ConcurrentHashMap则使用分段锁来实现线程同步,锁的粒度更细,所以ConcurrenttHashMap性能比HashTable更好。所以Hashtable也逐渐被遗弃。

 

 

参考:

HashMap源码分析

HashMap工作原理

posted @ 2019-01-19 14:55  静水楼台/Java部落阁  阅读(235)  评论(0编辑  收藏  举报