HashSet集合保证元素唯一性源码分析

我们观察刚才往HashSet集合中添加元素的代码时发现,HashSet集合保证元素唯一性可能和HashSet#add()方法有关.于是我们就来看一下HashSet集合的add()方法的源码.


//测试类中的代码.
HashSet<String> hs = new HashSet<>();
        hs.add("hello");
        hs.add("world");
        hs.add("java");
        hs.add("world");



public class HashSet{
	//定义一个成员变量,表示HashMap集合.
	private transient HashMap<E,Object> map;//E为测试类的String类型.
    //这个对象是系统自动创建并填充的.
    private static final Object PRESENT = new Object();
    //往HashSet集合中添加元素.
	public boolean add(E e) {//E表示要往集合中添加的元素
        return map.put(e, PRESENT)==null;  //添加成功:true    添加失败:false
    }

}

//HashMap集合的源代码.详细版
public class HashMap{
    //往双列集合(Map)中能够添加元素.
    public V put(K key, V value) {//K我们要添加的元素,例如"would"   value为new的一个新的OBJect()对象
        //我们发现Map#put()方法,底层调用的是putVal()方法,于是我们接着往下看
        return putVal(hash(key), key, value, false, true);
    }
}


//到这里发现,唯一性可能出现在这里,我们来详细看一下代码.
//hash:            要添加的元素的哈希值
//key:             要添加的元素
//value:           new Object()
//onlyIfAbsent:    false
//evict:           true
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
    //定义的一些初始化变量
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    //n记录的是table(哈希表)的长度
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //如果哈希表没有初始化,就胡藏剑哈希表
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    //走到这里说明哈希表存在
    else {
        //获取哈希表中的元素
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            //重点为这一行代码,走这里,说明不添加元素
            e = p;
        //如果p是要排序的,就走这里,再添加
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        
        //添加元素的动作,并返回旧值
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    //如果存在不添加,返回null
    ++modCount;
    if (++size > threshold)
            resize();
    afterNodeInsertion(evict);
    return null;
}



//HashMap集合的源代码.简单版
public class HashMap{
    //往双列集合(Map)中能够添加元素.
    public V put(K key, V value) {//K我们要添加的元素,例如"would"   value为new的一个新的OBJect()对象
        //我们发现Map#put()方法,底层调用的是putVal()方法,于是我们接着往下看
        return putVal(hash(key), key, value, false, true);
    }
}


//到这里发现,唯一性可能出现在这里,我们来详细看一下代码.
//hash:            要添加的元素的哈希值
//key:             要添加的元素
//value:           new Object()
//onlyIfAbsent:    false
//evict:           true
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
    
      if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k)))){
            //重点为这一行代码,走这里,说明是同一个元素,不添加元素
            e = p;
      }else{
          //走这里,说明是不同一个元素,添加元素
      }
}

通过上述源代码的分析,我们发现HashSet保证集合元素的唯一性依赖于一个判断,即:

//p.hash:集合中已经存在的元素的哈希值				hash:要添加元素的哈希值
//k:就是集合中的元素对象						   key:要添加的元素


//(  ??            && (??                || (??          &&         ??   )))
if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k)))){
            //重点为这一行代码,走这里,说明是同一个元素,不添加元素
            e = p;
      }else{
          //走这里,说明是不同一个元素,添加元素
      }

集体的判断流程

  1. 判断两个对象(集合中已经存在的某个对象 和 要添加的元素) 的哈希值是否相同

    哈希值不同:说明不是同一个元素,就添加

    哈希值相同:说明可能不是同一个元素,程序继续往下运行.

  2. 比较两个对象的地址值

    地址值不同:说明是同一个元素,不添加

    地址值相同:说说明可能不是同一个元素,程序继续往下运行.

  3. 判断要添加的元素是否为null

    如果为null: 不是同一个元素,就添加

    如果不为null: 说明可能不是同一个元素,程序继续往下运行.

  4. 比较两个对象的各个属性值是否相同

    如果相同:说明是同一个元素,不添加元素

    如果不同:说明可能不是同一个元素,就添加

问:为什么要设计这么复杂?.直接通过equals()比较两个对象的属性值不就好了吗?

确实可以直接比较equals()方法这样设计,但是效率比较低,程序之所以设计的这么繁琐,就是为了降低equals)()放大的次数.从而实现"节约资源,提高效率".

HashSet存储自定义类中要重写hashCode()和equals()方法
最终结论:HashSet保证元素的唯一性以来:hashCode(),equal()两个方法.