hash算法的介绍【清晰易懂】

Hash表是一种数据结构提供快速的存取和查找，他是基于数组的，数组创建后大小是固定的难以拓展，当然可以复制数据到更大的数组，但是非常消耗性能，如果数据量固定，需要快速查询时 hash表是一个不错的选择

数组只能以数字作为下标而不能以字符串作为下标所以要考虑将字符串转换为唯一的数字这个过程叫做hash化过程由hash函数完成，使用hash函数插入数据到数组后，数组被称为hash表

Hash函数

1叠加法

假如给字母编个号码

空格0 a 1 ,b2 c 2, 27 z

Hash函数采用加法运算

比如 abc = 1+2+3

最大的字母是10位

zzzzzzzzzz=26*10=260

显然所有的字母可能只能组合出 260个索引为，而实际上单词有 50000

而每一个索引的位置需要存放单词 50000/260=192个单词显然不行

2 幂的连续乘法

参考数字的拆分

234=2*100+3*10+4

那么abc 因为字母是27个

1*27*27+2*27+3= 786

如果是 zzzzzzzzzz=? 不知道有多大可能会操过变量允许的最大位数

怎么解决了可以对产生的数字进行压缩

比如数组的大小是1000

那么获取下标可以用要存放的字母幂的连乘获取的结果 % 1000（也就是数组的大小）

就能获取一个数 <1000 的

比如（1000+999）%1000 =999

这样仍然有一个问题

就是数组可能压缩产生的数字已经被其他的字母占据了怎么办了

有两种解决方法：开放地址法和链地址法

2.1开放地址法：

开放地址法就是发现如果被占据，就需要利用方法去找寻空白的位置，三种方法：线性探测，二次探测，再hash法

线性探测：比如产生的索引位置是123，123被占据了找124 124被占用找125 一直到找到是空白的地址

二次探测：已填充数据的个数/hash表的大小就是装填因子，聚集就是hash表某个部分的位置都被填充而部分位置一个数据的都没有出现聚集时可能到比较远一点的单元格去寻找空的位置就叫二次探测

一次探测比如找到的位置是 123 123+1 ，123+2 一步一步探测

二次探测找到的位置是 123 123+1 123+4 123+9 已 n的平方来探测

可以这么理解首先查找临边如果临边被占据了怀疑可能旁边也被占据了，跳到4的位置

有点忧虑可能有很大的聚集结果跳到9的位置

但是二次探测也会产生问题：二次聚集比如 n多个数通过hash函数转换的数字式一样的跳动的步骤也是一样的出现二次聚集

再哈希法：二次探测出现二次聚集的原因是因为步长时相同的，现在需要创建一个布长不一样的探测序列这个序列可以在用一次hash化一便，布长不能为0 否则每次都在原地打转

stepSize=contant*(key%contant)

contant是介质小于数组容量，key是第一次hash的位置

2.2链地址法：

这种方法比较容易理解

Hash表中位置放置的是第一次插入的值，以后如果hash话出来的位置已经存在数据的话就已链表的形式指向第一个位置，如果在来一个指向第二个位置

很明显这样做会出现重复值，当然也允许出现重复值

链表就不用再担心容量问题

posted @ 2010-10-28 16:22 饺子吃遍天阅读(153) 评论(0) 编辑收藏举报

刷新页面返回顶部

饺子吃遍天

hash算法的介绍 【清晰易懂】

公告

hash算法的介绍【清晰易懂】