哈希表(散列表)冲突解决方法
处理冲突的方法可以分为两大类:开放地址法和链地址法
开发地址法
开放地址法的基本思想是:把记录都存储在散列表数组中,当某一记录关键字key的初始散列地址H0=H(key)发生冲突时,以H0为基础,采取合适方法计算得到另一个地址H1,如果H1仍然发生冲突 ,以H1为基础再求下一个地址H2,若H2仍然冲突,再求H3.依次类推,直至Hk不发生冲突为止,则Hk为记录在表中的散列地址。
这种方法在寻找“下一个”空的散列地址时,原来的数组空间对所有的元素都是开放的,所以称为开放地址法。通常把寻找“下一个”空位的过程称为探测,上述方法可用如下公式表示
Hi=(H(key)+di)%m i=1,2,...,k (k<=m-1)
其中,H(key)为散列函数,m为散列表表长,di为增量序列。根据di取值的不同,可以分为以下三种探测方法:
(1)线性探测法:
di=1,2,3,。。。,m-1
这种探测方法可以将散列表假想成一个循环表,发生冲突时,从冲突地址的下一个单元顺序寻找空单元,如果到最后一个位置也没有找到空单元,则回到表头开始继续查找 ,直到找到一个空位,就把此元素放入空位中,如果找不到空位,则说明散列表已满,需要进行溢出处理。
(2)二次探测法
di=1^2, -1^2, 2^2, -2^2,...,+k^2 ,-k^2(k<=m/2)
(3)伪随机探测法
di=伪随机数序列
例如,散列表的长度为11,散列函数H(key)=key%11,假设表中已填有关键字分别为17、60、29的记录,现在有第四个记录,其关键字为38,由散列函数得到散列地址为5,产生冲突。
若用线性探测法处理时,得到下一个地址6,仍冲突;再求下一个地址7,仍冲突直到散列地址为 8的位置为“空”时为止,处理冲突的过程结束,38填入散列表中序号为 8的 位置。
若用二次探测法,散列地址5冲突后,得到下一个地址6,仍冲突;再求得到下一个地址4,无冲突,38填入序号为4的 位置。
若用伪随机探测法,假设产生的伪随机数为9,则计算下一个散列地址为(5+9)%11=3,所以38填入序号为3的位置。
从上述线性探测法处理的过程中可以看到一个现象:当表中 i,i+1,i+2位置上已填有记录时,下一个散列地址为i、i+1、i+2和i+3的记录都将填入i+3的位置,这种在处理冲突过程中发生的两个第一散列地址不同的记录争夺同一个后续散列地址的现象称作“二次聚集(或称作“堆积”)”即在处理同义词的冲突过程中又添加了非同义词的冲突。
可以看出,上述三种处理方法各有优缺点。线性探测法的优点是:只要散列表未填满,总能找到一个不发生冲突的地址:缺点是:会产生“二次聚集”现象。而二次聚集探测法和伪随机探测法的优点是:可以避免“二次聚集”现象;缺点也很显然:不能保证一定找到不发生冲突的地址。
链地址法
链地址的基本思想是:把具有相同散列地址的记录放在同一个单链表中,称为同义词链表。有m个散列地址就有m个单链表,同时用数组HT[0...m-1]存放各个链表的头指针,凡是散列地址为i的记录都以结点插入到HT[i]为头结点的单链表中。