【C# 数据结构与算法】哈希函数 hash

概览

一、引言

散列表(Hash Table)，哈希表是一种组合的数据结构，特点是:数据元素的关键字与其存储地址直接相关，它通常的实现方式是数组加链表，或者数组加红黑树。哈希表是一种牺牲空间去换取时间的数据结构，需要在空间与时间上有取舍，哈希表是时间和空间之间的平衡。哈希表的核心是哈希函数，哈希表最关键的问题哈希冲突也是取决于哈希函数的设计。

散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

二、哈希函数

1、什么是哈希函数

哈希函数是一种将“键”转换为“索引”的逻辑规则。它的设计好坏对哈希表的性能影响巨大。优良的哈希函数能够最大程度的减少哈希冲突，使得哈希表中的元素分布得尽可能的均匀，离散程度更大，这样哈希表就会性能优越；较差的哈希函数设计，带来的可能是一场灾难，哈希冲突严重，空间利用率低，时间复杂度呈线性恶化，造成频繁的扩容操作。

hash算法是对二进制进行操作，所以只要一个字符发生变化，都会改变哈希的结果。

下图就是Hash函数的一个简单说明，任意长度的数据通过HashFunc映射到一个较短的数据集中。

2、哈希函数的设计

对于哈希函数的设计，以下举了一些简单的例子，都基本类型转换成整型处理，并不是唯一的方法，仅供参考。以下简单列了几条设计原则。

一致性：如果a == b,则hash(a) == hash(b)（hash函数）
高效性：哈希函数计算高效简便
均匀行：哈希值均匀分布（质数）

当然了同时设计满足这三个条件的哈希函数是专家们的事。于是C#令所有数据类型都继承了父类object并且实现了一个能返回一个int型的GetHashCode()方法，我们C#程序员在使用时只需要调用GetHashCode()方法即可，我们没有理由不相信它们。

3、哈希函数特点

单向：不可能，不能根据hashcode推出key

压缩：

定长：输入可以任意长度，输出是固定长度

碰撞/冲突：防碰撞特性（Collisionresistance）

高灵敏：改一点点，都能产生完全不一样的hashcode

速度快：计算hash值的速度比较快

哈希操作

1、整型

小范围正整数可直接使用
小范围负整数进行偏移

大整数
将整数散列最常用的方法就是取余。选择大小为M的数组（素数），数值%M =数组下标，这样可以将键有效的散布在从0到M-1的范围之内。。素数能减少哈希冲突的次数，哈希冲突是无法避免的。

说明：上图（左）与一个不合适的合数取模，获得的索引冲突严重，不可取；而上图（右）与一个质数取模，明显获得的索引分布更均匀，离散程度更好。点击获取合适的哈希表素数。

2、浮点型

浮点型转换成整型处理。如果键是o到1之间的小数，我们可以将键表示为二进制整数，然后再进行取余。
注意：（浮点数的算法不是固定的，可以自行通过研究不同浮点型hash算法）

3、字符串型.

字符串的算法不是固定的，可以自行可以通过研究不同字符串hash算法

字符串型转换成整型处理，方法不是固定，可以通过研究不同字符串hash算法

如果键是字符串类型，我们同样将键表示为整数，然后再进行取余。

“123”=1*10^2+2*10^1+3*10^0
“abc”=a*2612 + b*26^1+c*26^Oabc = 97*2612+98*26^1+99*2610
=26*(97*26+98)+99
=68219

说明：其中B为一个常数，M为一个合适的质数。上图将一个字符串型加入一些规则映射成了一个整型。

4、日期类型

日期类型转换成整型处理

三、哈希冲突的处理

1、链地址法（拉链法 Separate Chaining）

也叫开散列方法，将取模后相同地址，存储在这个地址所指向的链表中。

拉链法是解决哈希冲突的一种行之有效的方法，某些哈希地址可以被多个关键字值共享，这样可以针对每个哈希地址建立一个单链表。

在拉链（单链表）的哈希表中搜索一个记录是容易的，首先计算哈希地址，然后搜索该地址的单链表

拉链法散列函数设计

（1）除留余数法——H(key) = key %b
散列表表长为m，取一个不大于m但最接近或等于m的质数p
（2）直接定址法—— H(key) = key 或 H(key) = a*key + b
其中，a和b是常数。这种方法计算最简单，且不会产生冲突。它适合关键字的分布基本连续的情况，若关键字分布不连续，空位较多，则会造成存储空间的浪费。
例:存储同一个班级的学生信息，班内学生学号一般都是连续的，班内学生学号为(1120112176~1120112205)，设计的散列函数如下：

H(key) = key - 1120112176

（3）数字分析法——选聊数码分布较为均匀的若干位作为散列地址
设关键字是r进制数（如十进制数)，而r个数码在各位上出现的频率不一定相同，可能在某些位上分布均匀一些，每种数码出现的机会均等;而在某些位上分布不均匀，只有某几种数码经常出现，此时可选取数码分布较为均匀的若干位作为散列地址。这种方法适合于已知的关键字集合，若更换了关键字，则需要重新构造新的散列函数。

例:以“手机号码”作为关键字设计散列函数，电话号码的头部分布不均匀，后四位分布均匀。
138XXXX2875
138XXXX1682

138XXXX9125
199xXXX1684

199XXXX1236