散列表
摘要
散列表的实现常常叫做散列(hashing).散列是一种用于以常数平均时间执行插入、删除和查找的技术。但是,那些需要元素间任何排序信息的操作将不会得到有效的支持。
直接寻址表
当关键字的全域U比较小时,直接寻址是一种简单而有效的技术。一般可以采用数组实现直接寻址表,数组下标对应的就是关键字的值,即具有关键字k的元素被放在直接寻址表的槽k中。直接寻址表的字典操作实现比较简单,直接操作数组即可,只需O(1)的时间
散列表
直接寻址表的不足之处在于当关键字的范围U很大时,在计算机内存容量的限制下,构造一个存储|U|大小的数组不太实际。当存储在字典中的关键字集合K比所有可能的关键字域U要小的多时,散列表需要的存储空间要比直接寻址表少的很多。散列表通过散列函数h计算出关键字k在槽的位置。散列函数h将关键字域U映射到散列表T[0...m-1]的槽位上:
采用散列函数的目的在于缩小需要处理的小标范围,从而降低空间的开销
散列函数
一个好的散列函数应(近似地)满足简单一致散列的假设:每个关键字都等可能地散列到m个槽位的任何一个之中去,并与其他的关键字已被散列到哪一个槽位中无关。多数散列函数都假定关键字域为自然数集 N = {0, 1, 2,...}.如果所给关键字不是自然数,则必须有一种方法来将它们解释为自然数
除法散列法
通过取k除以m的余数,来将关键字k映射到m个槽的某一个中去,散列函数为:
h(k) = k mod m;
乘法散列法
用关键字k先乘上A,然后取出k * A 的小数部分,然后用m乘以这个值,再取结果的底(floor),散列函数为:
h(k) = floor(m * (k * A % 1));
根据研究,knuth认为A取(sqrt(5) - 1) / 2是一个比较理想的值(ps:我是没搞懂这个方法)
全域散列
全域散列用的方式是:随机地选择散列函数,使之独立于要存储的关键字,这样就很难出现最坏情况,平均性能很好,最后设计的散列函数为:
h(a, b) = ((ak + b) % p) % m;
这几个散列函数可以参考算法导论,我就是看了点皮毛,不多说了
碰撞处理
散列表的缺点就是容易出现冲突(也叫碰撞),两个关键字可能映射到同一个槽中,然后就产生了冲突,解决冲突的方法有很多种,这里只讨论其中最简单的两种:
链接法
就是把散列到同一个槽中的所有元素都放在一个链表中,如果,槽j中有一个指针,它指向所有散列到j的元素构成的链表的头;如果不存在这样的元素,则j为null,如图所示:
参考代码(c语言)
参考链接:
http://mindlee.net/2011/08/06/solve-hash-conflict-links-method-and-separation-open-addressing-method/, 我改善了原文中的链接法解决hash冲突的代码,并且增加了冲突测试用例
#include <stdio.h> #include <stdlib.h> #include <string.h> #define MAXN 400000 // MAXN : size int prime[MAXN]; // true : prime number /** * 每行链表上的一个的节点 */ typedef struct lnode { int element; struct lnode *next; } *position; /** * 一个点代表槽中的一个链表上的一个点 */ typedef struct hashtb { int tablesize; position *dlist; // 指针的指针,指向由于冲突形成的链表 } *hashtable; /** * 素数筛选法 */ void sievePrime() { int i, j; memset(prime, 1, sizeof(prime)); prime[0] = prime[1] = 0; for (i = 2; i < MAXN; i ++) { if (prime[i]) { for (j = 2 * i; j < MAXN; j += i) prime[j] = 0; } } } /** * 散列函数,除法散列法 */ int hashFunction(int key, int tablesize) { return key % tablesize; } /** * 找到第一个>=x的素数 */ int nextPrime(int x) { while (prime[x] == 0) x = x + 1; return x; } /** * 初始化hash表,返回指向hash表的指针 */ hashtable initializeTable(int tablesize) { if (tablesize <= 1) { printf("Table size is too small!\n"); return NULL; } hashtable ht = (hashtable)malloc(sizeof(struct hashtb)); if (ht == NULL) { printf("Malloc is failed!\n"); exit(-1); } // 构建hash表的dlist指针数组 ht->tablesize = nextPrime(tablesize); ht->dlist = (position *)malloc(sizeof(position) * ht->tablesize); if (ht->dlist == NULL) { printf("Malloc is failed\n"); exit(-1); } // TODO: 这里作用没搞清楚,学习完redis的源码后回来更新 // 初始化dlist数组 ht->dlist[0] = (position)malloc(ht->tablesize * sizeof(struct lnode)); if (ht->dlist[0] == NULL) { printf("Malloc is failed\n"); } int i; for (i = 0; i < ht->tablesize; i ++) { ht->dlist[i] = ht->dlist[0] + i; ht->dlist[i]->next = NULL; } return ht; } /** * 查找key所在的单元 */ position findElement(int key, hashtable ht) { position p, l; // 先找到所在的行 int loc = hashFunction(key, ht->tablesize); l = ht->dlist[loc]; p = l->next; while (p != NULL && p->element != key) { p = p->next; } if (p == NULL) return l; else return p; } /** * 向hash表中插入元素key */ void insertElement(int key, hashtable ht) { position pos, new; pos = findElement(key, ht); if (pos->element != key) { // key没找到,执行插入操作 new = (position)malloc(sizeof(struct lnode)); if (new == NULL) { printf("Malloc is failed!\n"); exit(-1); } else { new->element = key; new->next = pos->next; pos->next = new; } printf("%d 插入表中!\n", key); } else { printf("%d 已经存在,无需重复插入!\n", key); } } /** * 在hash表中删除元素 */ void deleteElement(int key, hashtable ht) { position pos, new; pos = findElement(key, ht); if (pos->element == key) { new = ht->dlist[hashFunction(key, ht->tablesize)]; while (new->next != pos) { new = new->next; } new->next = pos->next; free(pos); printf("%d删除成功!\n", key); } else { printf("%d不存在,无法删除!\n", key); } } /** * 查找描述 */ inline void findDescription(position p, int key) { if (p->element == key) { printf("%d查找成功\n", key); } else { printf("%d不在hash表中\n", key); } } int main(void) { sievePrime(); hashtable table = initializeTable(20); printf("hash表的大小是:%d\n", table->tablesize); // tsize = 23 position pos = NULL; // 先插入6个元素 insertElement(20, table); // --> 20 insertElement(89, table); // --> 20 insertElement(18, table); // --> 18 insertElement(49, table); // --> 3 insertElement(58, table); // --> 12 insertElement(69, table); // --> 0 // 测试可以查找的元素 pos = findElement(89, table); findDescription(pos, 89); pos = findElement(20, table); findDescription(pos, 20); // 测试找不到的 pos = findElement(25, table); findDescription(pos, 25); // 测试删除 deleteElement(69, table); return 0; }
运行结果
开放寻址法
未完待续!!