数据机构及算法基础--哈希图(hashmap)(二)

接着上一篇文章的内容,这篇我们将阐述hashmap在jdk1.8中的扩容机制。

jdk1.8中对hashmap有着非常棒的扩容机制,我们在上一篇文章提到了当链表长度大于某个值的时候,hashmap中的链表会变成红黑树结构,但是实际上真的是这样么?我们来看一下树化的函数是怎样进行的:

    final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            do {
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
                hd.treeify(tab);
        }
    }

 

我们从第一个判断语句就发现,如果hashmap中table的长度小于64(MIN_TREEIFY_CAPACITY)的时候,其实是不会进行树化的,而是对这个hashmap进行扩容。所以我们发现,扩容不仅仅用于node的个数超过threshold的时候。

这个树化函数的设计便是想保持算法设计中的相对较好。

 

要了解扩容机制,我们先来看看jdk1.7是怎么设计的,因为我用的是jdk1.8,所以一下代码是从网上摘取,如果和源码有区别,请各位告知:

void resize(int newCapacity) {   //传入新的容量  
    Entry[] oldTable = table;    //引用扩容前的Entry数组  
    int oldCapacity = oldTable.length;  
    if (oldCapacity == MAXIMUM_CAPACITY) {  //扩容前的数组大小如果已经达到最大(2^30)了  
        threshold = Integer.MAX_VALUE; //修改阈值为int的最大值(2^31-1),这样以后就不会扩容了  
        return;  
    }  
  
    Entry[] newTable = new Entry[newCapacity];  //初始化一个新的Entry数组  
    transfer(newTable);                         //!!将数据转移到新的Entry数组里  
    table = newTable;                           //HashMap的table属性引用新的Entry数组  
    threshold = (int) (newCapacity * loadFactor);//修改阈值  
}  

 

其中transfer方法如下:

void transfer(Entry[] newTable) {  
    Entry[] src = table;                   //src引用了旧的Entry数组  
    int newCapacity = newTable.length;  
    for (int j = 0; j < src.length; j++) { //遍历旧的Entry数组  
        Entry<K, V> e = src[j];             //取得旧Entry数组的每个元素  
        if (e != null) {  
            src[j] = null;//释放旧Entry数组的对象引用(for循环后,旧的Entry数组不再引用任何对象)  
            do {  
                Entry<K, V> next = e.next;  
                int i = indexFor(e.hash, newCapacity); //!!重新计算每个元素在数组中的位置  
                e.next = newTable[i]; //标记[1]  
                newTable[i] = e;      //将元素放在数组上  
                e = next;             //访问下一个Entry链上的元素  
            } while (e != null);  
        }  
    }  
}  

 

 

我们通过上面代码可以知道,我们其实是遍历这个链表,然后将新的元素位置从头位置插入。这样我们可以知道,我们链表中的先后顺序是会改变的。前后顺序会反过来。下图可以很明白的开出这种变换关系:

jdk1.7扩容例图

 

那么,关于jdk1.8,我们做了哪些优化呢?

我们一定要先明确一个很重要的东西!!jdk1.8的table长度一定是2的幂!!

也就是说在jdk1.8中 resize()一定是扩大两倍的容量

 

我们在上篇文章中提到,jdk1.8中的索引和1.7的原则是一样的,都采用的是:h & (length - 1)作为node的索引

如果我们扩展长度为两倍,那么作为length-1就是尾端为一串1,其余为0的位序列。

那么位运算可以得到下图:

hashMap 1.8 哈希算法例图1

图a是扩展前产生的index,图二为扩展两倍容量的index,java1.8很巧妙的运用扩展2倍产生index这一点,我们直接判断hash值在位中,比n-1高一位的比特是1还是0来移动:

hashMap 1.8 哈希算法例图2

这就是上图中,红点标出的比特位便成了一种标志,我们通过判断它为0为1来进行扩容操作。红圈的16不是定值,而是原hashmap的table的长度。

 

上面的例子,也说明,我们table长度只有16的时候,有很大的情况能够让index相同,但是扩容后又不在拥有相同的index。

这个设计确实非常的巧妙,既省去了重新计算hash值的时间,而且同时,由于新增的1bit是0还是1可以认为是随机的,因此resize的过程,均匀的把之前的冲突的节点分散到新的bucket了。这一块就是JDK1.8新增的优化点。有一点注意区别,JDK1.7中rehash的时候,旧链表迁移新链表的时候,如果在新表的数组索引位置相同,则链表元素会倒置,但是从上图可以看出,JDK1.8不会倒置,这一点正如之前的代码所示。

 

我们可以用一张图略微表示一下,下图中蓝色为新增的index位为0,绿色的表示1:

jdk1.8 hashMap扩容例图

 

当然,jdk1.8的resize代码复杂了很多,虽然大家都说它写的很好,我还是在判断语句的执行中有很多疑惑,感觉很多判断语句都是相互包含的。具体的我还要继续学习一下,但是jdk1.8中的resize()流程还是很清晰的,怎么扩展,怎么移动链表,代码都很棒的:

final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { // preserve order
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

 

 

其实说了这么多,hashmap如果只是运用的话,我们只需要了解她的基础函数和结构即可,但是我相信对hashmap的原理有了解肯定能加强对它理解和应用,对不同情况的使用也有理解。

当然,我还是那句话,源码一定是最好的老师。

 

posted @ 2017-10-16 04:30  霄十一郎  阅读(561)  评论(0编辑  收藏  举报