散列表基础

散列表（Hash table，也叫哈希表），是根据键（Key）而直接访问在内存储存位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。

例如，在通讯录中要存储姓名和电话号码，此时将姓名作为key，号码作为value，姓名到首字母的计算方法作为哈希函数，整个通讯里作为哈希表。当我们要查找某个姓名对应的号码时，先计算它的首字母，再到该首字母对应的表下查找key。此方法显然要比从所有无序的姓名中查找要快速。由此可见，key也是存储信息的一部分，且key是独一无二的，而多个人的首字母可能是同一字母，这就造成了哈希冲突。关于查找，往往计算哈希函数的时间是极短的，查找就需要在造成哈希冲突的键值对中遍历。当我们要存储成双成对的信息时，就可以使用散列表。

散列函数：

散列函数能使对一个数据序列的访问过程更加迅速有效，通过散列函数，数据元素将被更快定位。

直接定址法：取关键字或关键字的某个线性函数值为散列地址。
数字分析法：假设关键字是以r为基的数，并且哈希表中可能出现的关键字都是事先知道的，则可取关键字的若干数位组成哈希地址。
平方取中法：取关键字平方后的中间几位为哈希地址。通常在选定哈希函数时不一定能知道关键字的全部情况，取其中的哪几位也不一定合适，而一个数平方后的中间几位数和数的每一位都相关，由此使随机分布的关键字得到的哈希地址也是随机的。取的位数由表长决定。
折叠法：将关键字分割成位数相同的几部分（最后一部分的位数可以不同），然后取这几部分的叠加和（舍去进位）作为哈希地址。
随机数法。
除留余数法：取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。 $不仅可以对关键字直接取模，也可在折叠法、平方取中法等运算之后取模。对余数的选择很重要，一般取不超过散列表长的最大素数，若余数选择不好，容易产生冲突。$

$冲突解决：$

开放定址法：探测哈希冲突地址的下一个地址，知道地址上无已存储的键值对为止，其中的探测方法有线性，平方探测等，在此不做讨论。该方法容易出现聚集现象，即多个哈希值分布在哈希表中的一小段区间内，会造成空间的灾难性浪费。应当注意表不能填满且需不断扩容，控制负载因子。
单独链表法：将Hash(key)相同的键值对放在一个链表中，即一个哈希值占表中一个地址，其余相同的键值对由该地址延申。HashMap和通讯录都运用此方法。
再散列：利用哈希冲突的散列函数地址产生新的散列函数地址，直到冲突不再产生为止。会造成时间的灾难性浪费。

查找效率：

散列表的查找过程基本上和造表过程相同。一些关键码可通过散列函数转换的地址直接找到，另一些关键码在散列函数得到的地址上产生了冲突，需要按处理冲突的方法进行查找。在介绍的三种处理冲突的方法中，产生冲突后的查找仍然是给定值与关键码进行比较的过程。所以，对散列表查找效率的量度，依然用平均查找长度来衡量。查找过程中，关键码的比较次数，取决于产生冲突的多少，产生的冲突少，查找效率就高，产生的冲突多，查找效率就低。因此，影响产生冲突多少的因素，也就是影响查找效率的因素。影响产生冲突多少有以下三个因素：1，散列函数是否均匀；2，处理冲突的方法，3，负载因子。

负载因子： $\alpha$ 填入表中的元素个数 / 散列表的长度。

$\alpha$

对于开放定址法，荷载因子是特别重要因素，应严格限制在0.7-0.8以下。超过0.8，查表时的CPU缓存不命中（cache missing）按照指数曲线上升。因此，一些采用开放定址法的hash库，如Java的系统库限制了荷载因子为0.75，超过此值将resize散列表。

维基百科

posted @ 2020-06-14 11:40 Faded828x 阅读(195) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部