初学 哈希
百度文库 : https://wenku.baidu.com/view/b7d3d1c6804d2b160a4ec090.html
求一个字符串的hash值:
假设我们取p=13 ,mod=101
先把abc映射为一个整数
hash[0]=1,表示 a 映射为1
hash[1]=(hash[0]*p+idx(b))%mod=15,表示 ab 映射为 15
hash[2]=(hash[1]*p+idx(c))%mod=97
这样,我们就把 abc 映射为 97 这个数字了。
hash值呢?
unsigned long long hash[N];
定义一个unsigned long long类型的变量,它的范围是在[0, 2^64) 内,这就相当于,当数超不过2^64-1后,它会溢出!这就相当于一个数模2^64的过程。
那么hash函数可以理解为:
hash[i]=(hash[i-1]*p)%(2^64)
P取一个大素数,一般习惯取1e9+7或1e9+9
安全指数:三星(所以并不是很安全)
这个之前已经提到过了。
hash[i]=(hash[i-1]*p+idx(s[i]))%mod
hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1
hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2
pair<hash1,hash2>表示一个字符串!
解释:
hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1
hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2
mod1一般取1e9+7,mod2一般取1e9+9为什么这么取?
1000000007和1000000009是一对孪生素数,取它们,冲突的概率极低!
但请注意,hash的维度越高,耗时越高,耗内存越大!一般情况下,single hash可以被hack掉,但double hash极难被hack掉, 用double hash足以解决问题
根据hash函数去求得一段区间的的 hash 值
#include <cstdio> #include <cstring> using namespace std; #define ll unsigned long long const ll maxn = 1e6+5; char s1[maxn], s2[maxn]; ll p = 100007; ll hash[maxn]; ll pp[maxn]; void init() { pp[0] = 1; for(int i = 1; i <= 1000; i++) { pp[i] = pp[i-1]*p; } } int main() { scanf("%s%s", s1, s2); ll len1 = strlen(s1); ll len2 = strlen(s2); init(); ll hash_1 = 0; for(ll i = 0; i < len1; i++){ hash_1 = hash_1*p+(s1[i]-'a'); } printf("hash_1 = %llu\n",hash_1); for(ll i = 0; i < len2; i++){ hash[i] = hash[i-1]*p+(s2[i]-'a'); printf("+++ i = %llu -> %llu\n", i, hash[i]); } ll ans = hash[5]-hash[2]*pp[3]; printf("%llu \n", ans); return 0; } /* qwe rasqwe */