redis的哈希算法和java的HashMap有什么差别

这个问题是一个面试官问到的

到现在我也没明白，他具体要问哪个？ -- 最近翻邮件的时候看到有人说还是有区别的，就又去瞄了一眼

有查了一些资料

本来大概也知道旧版的HashMap基本上就是传统的数组+链表的方式实现，

1、对key进行hash算法，取模，比如取模20，那么数组的长度就是20

2、那么如果取模的话一定存在某些key在同一个数组索引中（也称为同一个桶中），也可以叫hash冲突，这些概念都只是为了帮助理解，没必要太纠结

那么如何解决hash冲突？就是上面说到的链表，桶中将会转换成链表结构

我们可以理解为数组是一个一级索引，链表中才是真正的表数据

为什么不直接用全数组的形式：空间问题

缺陷：

1、哈希冲突频繁情况下，性能问题：可能需要进行重新分配桶

2、链表数据量大的情况下，查询性能的问题

Java8之后增加了红黑树的实现，红黑树是自平衡的二叉树，能实现良好的查询性能，相应的就是解决链表数据量大的情况下，查询性能的问题（单桶数据量大）

那么我们再看看redis，redis中也是有hash的数据类型

由于redis使用的不是java语言，源码并未过多分析，这边参考下这个博客：https://blog.csdn.net/mccand1234/article/details/93411326

从这边来看的，这里采用的应该和旧版的HashMap实现没有太大差别。

所以我不太明白之前的面试官是挖坑给我，还是另有所指

所以在学习redis的同时，这边又涉及到一个切片的问题，切片这边指的是当系统承载的访问量、数据量越来越多的情况下，单机甚至普通的集群业务分层都无法满足的情况下，需要进行更细的切分

常用的三种切分方式：

　　1、取模Hash

　　2、随机（适用于消息队列模式，即不管你往哪一台机子存数据，都有消费者阻塞读取，消费掉这个数据）

　　3、一致性Hash

这边也涉及到了hash算法，所以我也不太清楚是否面试官问的是这个

取模算法理论上和Java的HashMap应该也是差别不大

一致性Hash则有些不同

　　1、构建一个0~2^32的一个环形空间（逻辑）

　　2、通过对nodeName或者IP等进行hash函数取值，对应到这个环形空间的某个位置，代表具体的物理节点

　　3、客户端访问的时候对数据也进行一样的hash函数取值，对应到环形空间的某个位置，注意一般这里不会直接能找到物理节点，而是通过一个顺时针或者逆时针的方式来获取，这也是这个环形空间的存在意义（帮助理解）

存在的问题：

　　1、新增节点：会对相近的节点造成影响，导致原来指向相近节点的客户端，被重新指向新节点，造成缓存穿透；但是一般只影响一个节点，且如果只是作为缓存使用（而非数据库），应该是可以容忍的

　　2、数据倾斜的问题，数据分布可能会集中到某几个节点中；这个和HashMap的桶中个别数据量特别大是一样的道理。解决方式：可以通过一些虚拟节点，来让环形中的节点更均匀

------------------------------------------------------

从网上找到的资料，简单整理了下。

暂时理解是这样（不排除理解的有问题）：

由于redis的设计是基于简单和快速的，存储介质是内存

1、特定条件下redis采用的是压缩算法

在数据量比较少（键值对不超过512），redis的键值的长度不超过64的时候，采用的是压缩编码 ziplist和zipentry的。

在超过的时候，采用的是HashTable的结构，个人理解这个和旧版的Java HashMap实现没有太大的区别，也是通过挂链来解决冲突的问题

ziplist源码中的介绍

ziplist 是一个经过特殊编码的双向链表，旨在提高内存效率。它存储字符串和整数值，其中整数被编码为实际整数而不是一系列字符。它允许在 O(1) 时间内在列表的任一侧进行推送和弹出操作。但是，由于每个操作都需要重新分配 ziplist 使用的内存，因此实际复杂性与 ziplist 使用的内存量有关。
参考文章：https://blog.csdn.net/m0_51504545/article/details/117391204

posted @ 2020-09-15 07:37 gabin 阅读(4285) 评论(1) 收藏举报

刷新页面返回顶部

知识源于分享

redis的哈希算法和java的HashMap有什么差别

公告