HashMap就是这么简单【源码剖析】+ LIst
前言
声明,本文用得是jdk1.8
前面已经讲了Collection的总览和剖析List集合以及散列表、Map集合、红黑树的基础了:
本篇主要讲解HashMap,以及涉及到一些与hashtable的比较~
看这篇文章之前最好是有点数据结构的基础:
当然了,如果讲得有错的地方还请大家多多包涵并不吝在评论去指正~
一、HashMap剖析
首先看看HashMap的顶部注释说了些什么:
再来看看HashMap的类继承图:
下面我们来看一下HashMap的属性:
成员属性有这么几个:
再来看一下hashMap的一个内部类Node:
我们知道Hash的底层是散列表,而在Java中散列表的实现是通过数组+链表的~
再来简单看看put方法就可以印证我们的说法了:数组+链表-->散列表
我们可以简单总结出HashMap:
- 无序,允许为null,非同步
- 底层由散列表(哈希表)实现
- 初始容量和装载因子对HashMap影响挺大的,设置小了不好,设置大了也不好
1.1HashMap构造方法
HashMap的构造方法有4个:
在上面的构造方法最后一行,我们会发现调用了tableSizeFor()
,我们进去看看:
这是位运算算法,具体流程可参考:
- https://www.cnblogs.com/loading4/p/6239441.html
- https://blog.csdn.net/fan2012huan/article/details/51097331
看完上面可能会感到奇怪的是:为啥是将2的整数幂的数赋给threshold?
- threshold这个成员变量是阈值,决定了是否要将散列表再散列。它的值应该是:
capacity * load factor
才对的。
其实这里仅仅是一个初始化,当创建哈希表的时候,它会重新赋值的:
至于别的构造方法都差不多,这里我就不细讲了:
1.2put方法
put方法可以说是HashMap的核心,我们来看看:
我们来看看它是怎么计算哈希值的:
为什么要这样干呢??我们一般来说直接将key作为哈希值不就好了吗,做异或运算是干嘛用的??
我们看下来:
我们是根据key的哈希值来保存在散列表中的,我们表默认的初始容量是16,要放到散列表中,就是0-15的位置上。也就是tab[i = (n - 1) & hash]
。可以发现的是:在做&
运算的时候,仅仅是后4位有效~那如果我们key的哈希值高位变化很大,低位变化很小。直接拿过去做&
运算,这就会导致计算出来的Hash值相同的很多。
而设计者将key的哈希值的高位也做了运算(与高16位做异或运算,使得在做&运算时,此时的低位实际上是高位与低位的结合),这就增加了随机性,减少了碰撞冲突的可能性!
下面我们再来看看流程是怎么样的:
新值覆盖旧值,返回旧值测试:
接下来我们看看resize()
方法,在初始化的时候要调用这个方法,当散列表元素大于capacity * load factor
的时候也是调用resize()
1.3get方法
接下来我们看看getNode()
是怎么实现的:
1.4remove方法
再来看看removeNode()
的实现:
二、HashMap与Hashtable对比
从存储结构和实现来讲基本上都是相同的。它和HashMap的最大的不同是它是线程安全的,另外它不允许key和value为null。Hashtable是个过时的集合类,不建议在新代码中使用,不需要线程安全的场合可以用HashMap替换,需要线程安全的场合可以用ConcurrentHashMap替换
Hashtable具体阅读源码可参考:
- https://blog.csdn.net/panweiwei1994/article/details/77427010
- https://blog.csdn.net/panweiwei1994/article/details/77428710
四、总结
在JDK8中HashMap的底层是:数组+链表(散列表)+红黑树
在散列表中有装载因子这么一个属性,当装载因子*初始容量小于散列表元素时,该散列表会再散列,扩容2倍!
装载因子的默认值是0.75,无论是初始大了还是初始小了对我们HashMap的性能都不好
- 装载因子初始值大了,可以减少散列表再散列(扩容的次数),但同时会导致散列冲突的可能性变大(散列冲突也是耗性能的一个操作,要得操作链表(红黑树)!
- 装载因子初始值小了,可以减小散列冲突的可能性,但同时扩容的次数可能就会变多!
初始容量的默认值是16,它也一样,无论初始大了还是小了,对我们的HashMap都是有影响的:
- 初始容量过大,那么遍历时我们的速度就会受影响~
- 初始容量过小,散列表再散列(扩容的次数)可能就变得多,扩容也是一件非常耗费性能的一件事~
从源码上我们可以发现:HashMap并不是直接拿key的哈希值来用的,它会将key的哈希值的高16位进行异或操作,使得我们将元素放入哈希表的时候增加了一定的随机性。
还要值得注意的是:并不是桶子上有8位元素的时候它就能变成红黑树,它得同时满足我们的散列表容量大于64才行的~
明天要是无意外的话,可能会写TreeMap,敬请期待哦~~~~
文章的目录导航:https://zhongfucheng.bitcron.com/post/shou-ji/gong-zhong-hao-wen-zhang-zheng-li
如果文章有错的地方欢迎指正,大家互相交流。习惯在微信看技术文章,想要获取更多的Java资源的同学,可以关注微信公众号:Java3y。为了大家方便,刚新建了一下qq群:742919422,大家也可以去交流交流。
谢谢支持了!希望能多介绍给其他有需要的朋友
参考资料:
- 《Core Java》
- https://blog.csdn.net/panweiwei1994/article/details/76555359
- https://zhuanlan.zhihu.com/p/28216267
- https://blog.csdn.net/fan2012huan/article/details/51097331
- https://www.cnblogs.com/chinajava/p/5808416.html
List集合就这么简单【源码剖析】
前言
声明,本文用得是jdk1.8
前一篇已经讲了Collection的总览:Collection总览,介绍了一些基础知识。
现在这篇主要讲List集合的三个子类:
-
ArrayList
- 底层数据结构是数组。线程不安全
-
LinkedList
- 底层数据结构是链表。线程不安全
-
Vector
- 底层数据结构是数组。线程安全
这篇主要来看看它们比较重要的方法是如何实现的,需要注意些什么,最后比较一下哪个时候用哪个~
看这篇文章之前最好是有点数据结构的基础:Java实现单向链表,栈和队列就是这么简单,二叉树就这么简单
当然了,如果讲得有错的地方还请大家多多包涵并不吝在评论去指正~
一、ArrayList解析
首先,我们来讲解的是ArrayList集合,它是我们用得非常非常多的一个集合~
首先,我们来看一下ArrayList的属性:
根据上面我们可以清晰的发现:ArrayList底层其实就是一个数组,ArrayList中有扩容这么一个概念,正因为它扩容,所以它能够实现“动态”增长
1.2构造方法
我们来看看构造方法来印证我们上面说得对不对:
1.3Add方法
add方法可以说是ArrayList比较重要的方法了,我们来总览一下:
1.3.1add(E e)
步骤:
- 检查是否需要扩容
- 插入元素
首先,我们来看看这个方法:
public boolean add(E e) {
ensureCapacityInternal(size + 1); // Increments modCount!!
elementData[size++] = e;
return true;
}
该方法很短,我们可以根据方法名就猜到他是干了什么:
- 确认list容量,尝试容量加1,看看有无必要
- 添加元素
接下来我们来看看这个小容量(+1)是否满足我们的需求:
随后调用ensureExplicitCapacity()
来确定明确的容量,我们也来看看这个方法是怎么实现的:
所以,接下来看看grow()
是怎么实现的~
进去看copyOf()
方法:
到目前为止,我们就可以知道add(E e)
的基本实现了:
-
首先去检查一下数组的容量是否足够
- 足够:直接添加
-
不足够:扩容
- 扩容到原来的1.5倍
- 第一次扩容后,如果容量还是小于minCapacity,就将容量扩充为minCapacity。
1.3.2add(int index, E element)
步骤:
- 检查角标
- 空间检查,如果有需要进行扩容
- 插入元素
我们来看看插入的实现:
我们发现,与扩容相关ArrayList的add方法底层其实都是arraycopy()
来实现的
看到arraycopy()
,我们可以发现:该方法是由C/C++来编写的,并不是由Java实现:
总的来说:arraycopy()
还是比较可靠高效的一个方法。
参考R大回答:https://www.zhihu.com/question/53749473
1.4 get方法
- 检查角标
- 返回元素
// 检查角标
private void rangeCheck(int index) {
if (index >= size)
throw new IndexOutOfBoundsException(outOfBoundsMsg(index));
}
// 返回元素
E elementData(int index) {
return (E) elementData[index];
}
1.5 set方法
步骤:
- 检查角标
- 替代元素
- 返回旧值
1.6remove方法
步骤:
- 检查角标
- 删除元素
- 计算出需要移动的个数,并移动
- 设置为null,让Gc回收
1.7细节再说明
- ArrayList是基于动态数组实现的,在增删时候,需要数组的拷贝复制。
- ArrayList的默认初始化容量是10,每次扩容时候增加原先容量的一半,也就是变为原来的1.5倍
- 删除元素时不会减少容量,若希望减少容量则调用trimToSize()
- 它不是线程安全的。它能存放null值。
参考资料:
二、Vector与ArrayList区别
Vector是jdk1.2的类了,比较老旧的一个集合类。
Vector底层也是数组,与ArrayList最大的区别就是:同步(线程安全)
Vector是同步的,我们可以从方法上就可以看得出来~
在要求非同步的情况下,我们一般都是使用ArrayList来替代Vector的了~
如果想要ArrayList实现同步,可以使用Collections的方法:List list = Collections.synchronizedList(new ArrayList(...));
,就可以实现同步了~
还有另一个区别:
- ArrayList在底层数组不够用时在原来的基础上扩展0.5倍,Vector是扩展1倍。、
Vector源码的解析可参考:
三、LinkedList解析
LinkedList底层是双向链表~如果对于链表不熟悉的同学可先看看我的单向链表(双向链表的练习我还没做)【Java实现单向链表】
理解了单向链表,双向链表也就不难了。
从结构上,我们还看到了LinkedList实现了Deque接口,因此,我们可以操作LinkedList像操作队列和栈一样~
LinkedList变量就这么几个,因为我们操作单向链表的时候也发现了:有了头结点,其他的数据我们都可以获取得到了。(双向链表也同理)
3.1构造方法
LinkedList的构造方法有两个:
3.2add方法
如果做过链表的练习,对于下面的代码并不陌生的~
- add方法实际上就是往链表最后添加元素
public boolean add(E e) {
linkLast(e);
return true;
}
void linkLast(E e) {
final Node<E> l = last;
final Node<E> newNode = new Node<>(l, e, null);
last = newNode;
if (l == null)
first = newNode;
else
l.next = newNode;
size++;
modCount++;
}
3.3remove方法
实际上就是下面那个图的操作:
3.4get方法
可以看到get方法实现就两段代码:
public E get(int index) {
checkElementIndex(index);
return node(index).item;
}
我们进去看一下具体的实现是怎么样的:
3.5set方法
set方法和get方法其实差不多,根据下标来判断是从头遍历还是从尾遍历
public E set(int index, E element) {
checkElementIndex(index);
Node<E> x = node(index);
E oldVal = x.item;
x.item = element;
return oldVal;
}
......LinkedList的方法比ArrayList的方法多太多了,这里我就不一一说明了。具体可参考:
- https://blog.csdn.net/panweiwei1994/article/details/77110354
- https://zhuanlan.zhihu.com/p/24730576
- https://zhuanlan.zhihu.com/p/28373321
四、总结
其实集合的源码看起来并不是很困难,遇到问题可以翻一翻,应该是能够看懂的~
ArrayList、LinkedList、Vector算是在面试题中比较常见的的知识点了。下面我就来做一个简单的总结:
ArrayList:
- 底层实现是数组
- ArrayList的默认初始化容量是10,每次扩容时候增加原先容量的一半,也就是变为原来的1.5倍
- 在增删时候,需要数组的拷贝复制(navite 方法由C/C++实现)
LinkedList:
- 底层实现是双向链表[双向链表方便实现往前遍历]
Vector:
-
底层是数组,现在已少用,被ArrayList替代,原因有两个:
- Vector所有方法都是同步,有性能损失。
- Vector初始length是10 超过length时 以100%比率增长,相比于ArrayList更多消耗内存。
- 参考资料:https://www.zhihu.com/question/31948523/answer/113357347
总的来说:查询多用ArrayList,增删多用LinkedList。
ArrayList增删慢不是绝对的(在数量大的情况下,已测试):
- 如果增加元素一直是使用
add()
(增加到末尾)的话,那是ArrayList要快 - 一直删除末尾的元素也是ArrayList要快【不用复制移动位置】
- 至于如果删除的是中间的位置的话,还是ArrayList要快!
但一般来说:增删多还是用LinkedList,因为上面的情况是极端的~
参考资料:
- https://blog.csdn.net/panweiwei1994/article/details/76555359
- https://zhuanlan.zhihu.com/p/28216267
- 《Core Java》
文章的目录导航:https://zhongfucheng.bitcron.com/post/shou-ji/gong-zhong-hao-wen-zhang-zheng-li