[原创] 为什么模除的时候一般建议选择素数来除?比如说hashtable的桶数会取一个素数
设有一个哈希函数
H( c ) = c % N;
当N取一个合数时,最简单的例子是取2^n,比如说取2^3=8,这时候
H( 11100(二进制) ) = H( 28 ) = 4
H( 10100(二进制) ) = H( 20 )= 4
因为除以一个2^n,可以看为向左移动n位,而模除得到的余数其实就是这移掉的n位数,因此在这种情况下,除开这低位的n位数以外,剩余的高位数所有位都没有利用上,也就是说无论高位上的位取什么数,都对最后的余数不影响,从而有很多不同的数,但由于低n位是一样的,所以依然发生冲突。也就是导致冲突的几率增大。
关于为什么模除以素数就比除以合数冲突概率小?以下是个人推测:
当除以一个素数的时候(素数定义:只有1和它本身两个因数的自然数),由于该数不是2的倍数,因此除法不能完整的说是左右多少位,如果硬要除以该素数按进行移位来算的话,可以说移掉的低多少位,不再是一个整数,那么模除将影响的不再是低多少位数,而是相比于合数来说,要影响更多位,甚至说基本上会影响一个数所有的而二进制位。从而让一个数的所有二进制位都对最后产生的模除结果发挥了作用,相比于模除一个合数仅仅是低n位发挥作用来说,模除以一个素数发生冲突的概率就会更小。