hashcode剖析
1. 前言
散列是计算机科学的一个基本概念。在 Java 中,高效的散列算法支持一些最流行的集合,例如HashMap和HashSet,在本文中,我们将重点介绍hashCode() 的工作原理、它如何在集合中使用以及如何正确实现它。
2. hashcode 原理
2.1 Java equals()和hashCode()的关系
Object.html#hashCode()
hashcode的理解
- hashCode的存在主要是用于查找的快捷性,如Hashtable,HashMap等,hashCode是用来在散列存储结构中确定对象的存储地址的;
- 如果两个对象相同,就是适用于equals(java.lang.Object) 方法,那么这两个对象的hashCode一定要相同;
- 如果对象的equals方法被重写,那么对象的hashCode也尽量重写,并且产生hashCode使用的对象,一定要和equals方法中使用的一致,否则就会违反上面提到的第2点;
- 两个对象的hashCode相同,并不一定表示两个对象就相同,也就是不一定适用于equals(java.lang.Object) 方法,只能够说明这两个对象在散列存储结构中,如Hashtable,他们 “存放在同一个篮子里” 。
再归纳一下就是 hashCode是用于查找使用的,而 equals是用于比较两个对象的是否相等的。以下这段话是从别人帖子回复拷贝过来的,说得很形象:
(1) hashcode是用来查找的,如果你学过数据结构就应该知道,在查找和排序说过:假如内存中有这样的位置 [0 1 2 3 4 5 6 7] 而我有个类,这个类有个字段叫ID,我要把这个类存放在以上8个位置之一,如果不用hashcode而任意存放,那么当查找时就需要到这八个位置里挨个去找,或者用类似二分法的算法。 但如果用hashcode那就会使效率提高很多。
我们这个类中有个字段叫ID,那么我们就定义我们的hashcode为ID%8,然后把我们的类存放在取得得余 数那个位置。比如我们的ID为9,9除8的余数为1,那么我们就把该类存在1这个位置,如果ID是13,求得 的余数是5,那么我们就把该类放在5这个位置。这样,以后在查找该类时就可以通过ID和8求余数直接找到 存放的位置了。
(2) 但是如果两个类有相同的hashcode该怎么办呢(假设上面的ID不是唯一的),假如 9%8=1,17%8=1,那么这是不是合法的呢?回答是:可以这样。
那么如何判断呢?在这个时候就需要定义 equals了。也就是说,我们先通过hashcode来判断两个类是否存放在一个桶里面,但是这个桶里面可以有很多类,那么我们就需要通过equals 来在这个桶里找到我们要的类。
那么。重写了equals(),为什么还要重写hashCode()呢?
想想,你要在一个桶里找东西,你必须先要找到这个桶啊,你不通过重写hashcode()来找到桶,光重写equals()有什么用啊
2.2 举例分析
package com.wxw.common.hashcode;import java.util.HashSet;import java.util.Set;/** * @author 公众号:Java半颗糖 * @desc: * @date: 2021/7/24 */public class DemoHashCode { private int id; public void setId(Integer id) { this.id = id; } public Integer getId() { return id; } @Override public int hashCode() { return id % 10; } public static void main(String[] args) { DemoHashCode a = new DemoHashCode(); DemoHashCode b = new DemoHashCode(); a.setId(1); b.setId(1); Set<DemoHashCode> set = new HashSet<>(); set.add(a); set.add(b); System.out.println(a.hashCode() == b.hashCode()); System.out.println(a.equals(b)); System.out.println(set); /** * ---------- * 运行结果: * true * false * [com.wxw.common.hashcode.DemoHashCode@1, com.wxw.common.hashcode.DemoHashCode@1] */ }}复制代码
以上这个示例,我们只重写了hashcode() 方法,从上面的结果可以看出,虽然两个对象的hashcode相等,但实际上两个对象并不相等。
我们没有重写 equals()方法,那么就会调用Object默认的equals()方法,是比较两个对象的引用是不是相同,实际上两个对象的引用肯定是不等的,这里我们将生成的对象放到了HashSet中,而HashSet中只能够存放唯一的对象,也就是相同的(适用于equals方法)的对象只会存放一个,但是这里实际上是两个对象a,b都被放到了HashSet中,这样HashSet就失去了他本身的意义了。 此时我们把equals方法给加上:
package com.wxw.common.hashcode;import java.util.HashSet;import java.util.Set;/** * @author 公众号:Java半颗糖 * @desc: * @date: 2021/7/24 */public class DemoHashCode { private int id; public void setId(Integer id) { this.id = id; } public Integer getId() { return id; } @Override public boolean equals(Object o) { if (this == o) return true; if (o == null || getClass() != o.getClass()) return false; DemoHashCode that = (DemoHashCode) o; return id == that.id; } @Override public int hashCode() { return id % 10; } public static void main(String[] args) { DemoHashCode a = new DemoHashCode(); DemoHashCode b = new DemoHashCode(); a.setId(1); b.setId(1); Set<DemoHashCode> set = new HashSet<>(); set.add(a); set.add(b); System.out.println(a.hashCode() == b.hashCode()); System.out.println(a.equals(b)); System.out.println(set); /** * ---------- * 运行结果: * true * true * [com.wxw.common.hashcode.DemoHashCode@1] */ }}复制代码
从结果我们可以看出,现在两个对象就完全相等了,HashSet中也只存放了一份对象。
3. hash 冲突
哈希表的内在行为也带来了相应的问题:即使使用有效的哈希算法,两个或多个对象可能具有相同的哈希码,即使两个对象不相等。因此,即使它们具有不同的散列值,它们的散列码也会指向同一个桶。 这种情况通常被称为散列冲突。
解决hash冲突的方法,详细分析可以点此处查看:
- 链表法
- 开放寻址法
Java中的hashMap是使用链表法解决hash冲突的
当两个或多个对象指向同一个存储桶时,它们只是存储在一个链表中。在这种情况下,哈希表是一个链表数组,每个具有相同哈希值的对象都附加到链表中的通索引处。
在最坏的情况下,几个桶会绑定一个链表,而对链表中对象的检索将是线性执行的。
处理哈希冲突 简言之,为什么高效地实现 hashCode()如此重要?
Java8 也为HashMap的实现进行了增强,如果桶大小超过8,节点入超过64,则会转换为红黑树,而不是使用链表,这样当链表太长接近线性查找(复杂度为O(n))时 用红黑树 O(logN) 代替。
3.1 hashmap和hashcode的联系
User类中我们重写hashcode方法
@Datapublic class User { private long userId; private String userName; private String email; @Override public int hashCode() { int hash = 7; hash = 31 * hash + (int) userId; hash = 31 * hash + (userName == null ? 0 : userName.hashCode()); hash = 31 * hash + (email == null ? 0 : email.hashCode()); System.out.println("hashCode() called - Computed hash: " + hash); return hash; } public User(Long userId, String userName, String email) { this.userId = userId; this.userName = userName; this.email = email; }}复制代码
应用程序的入口:
public class DemoHashMap { public static void main(String[] args) { Map<User, User> users = new HashMap<>(); User user1 = new User(1L, "John", "john@domain.com"); User user2 = new User(2L, "Jennifer", "jennifer@domain.com"); User user3 = new User(3L, "Mary", "mary@domain.com"); users.put(user1, user1); users.put(user2, user2); users.put(user3, user3); if (users.containsKey(user1)) { System.out.print("User found in the collection"); } }}复制代码
在这里,重要的是要注意,每次将对象存储在哈希映射中并使用containsKey() 方法检查时,都会调用hashCode() 并将计算出的哈希码打印到控制台:
结论
很明显,生成高效的hashCode() 实现通常需要混合一些数学概念(即素数和任意数)、逻辑和基本数学运算。但是我们也可以有效地实现hashCode(),只需要确保散列算法为不相等的对象生成不同的散列码,并且它与equals()* 的实现一致。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示