这里将讲述【字符串算法1】字符串Hash

老版原文： RK哈希（Rabin_Karp 哈希）仅仅具有参考价值

新版题目：【字符串算法1】再谈字符串Hash（优雅的暴力）

概念

- 什么是字符串Hash？

- 就是把字符串映射成一个数字使每个字符串的映射结果不一样（把字符串有效的转化为数字）

对字符进行映射

对一个字符进行唯一编码，如A-->1,B-->2,C-->3等等

一般不用ASCII码表来映射而是转化为相对小一点的值来映射

提示信息：（字符串内包含数字、大小写字母，大小写敏感）

写出val函数映射字符：

int val(char ch)
{
    if (isdigit(ch)) return(ch-'0'+1);
    if (isupper(ch)) return(ch-'A'+11);
    if (islower(ch)) return(ch-'a'+39);
}

对字符串进行映射

一般映射方法：hash[i]=(hash[i-1]*p+idx(s[i]))%mod （保险度：****）

hash[i]表示字符串的第i个前缀的hash值

Hash值的性质

①这样子，我们就可以记录下每个字符串对应的整数，当下一次出现了一个已经出现的字符串时，查询整数是否出现过，就可以知道字符串是否重复出现。
②判断两个字符串是否一致，怎么办呢？直接用它们的hash值判断即可，若hash值一致，则认为字符串一致；
若hash值不一致，则认为是不同的字符串。

例子

假设我们取p=13 ，mod=101
先把abc映射为一个整数
hash[0]=1，表示 a 映射为1
hash[1]=(hash[0]*p+idx(b))%mod=15，表示 ab 映射为 15
hash[2]=(hash[1]*p+idx(c))%mod=97
这样，我们就把 abc 映射为 97 这个数字了。

冲突：

假设mo数和基底e取值不当时就会发生冲突

就是两个字符串明明不同但映射出来的结果相同

举个极端的例子

e=0的情况字符串"a"和字符串"b"映射出来的值都是0，就产生冲突

那么怎么调整才能使冲突概率小之又小呢？
- p取一个较大素数，mo取一个大素数。
习惯上，p取一个6到8位的素数即可，mo一般取大素数 1e9+7（1000000007）或
1e9+9（1000000009）【逃 19260817】

求出每个子串的hash值

注意到每一个hash[i]都是前缀和数字那么我们借用前缀和的思想，已知hash[r]和hash[l]求出Hash(l,r)表示前[l,r]子串的hash值

Hash[l]=(x₁*e^l-1+x₂*e^l-2+......+x_l*e⁰)mod mo

Hash[l-1]=(x₁*e^l-2+x₂*e^l-3+......+x_l-1*e⁰)mod mo

Hash[r]=(x₁*e^r-1+x₂*e^r-2+......+x_r*e⁰)mod mo

Hash(l,r)=(x_l*e^r-l+x_l+1*e^r-l-1+......x_r-1*e¹+x_r*e⁰)mod mo

Hash[l-1]*e^r-l+1=(x₁*e^l-2+x₂*e^l-3+......+x_l-1*e⁰)*e^r-l+1mod mo=(x₁*e^r-1+x₂*e^r-2+......+x_l-1*e^r-l+1)mod mo

Hash[r]-Hash[l-1]*e^r-l+1=（(x₁*e^r-1+x₂*e^r-2+...x_l-1*e^r-l+1+x_l*e^r-l...+x_r*e⁰)-(x₁*e^r-1+x₂*e^r-2+......+x_l*e^r-l+1)）mod mo =(x_l*e^r-l+x_l+1*e^r-l-1+......x_r-1*e¹+x_r*e⁰)mod mo=Hash(l,r)

所以：Hash[r]-Hash[l-1]*e^r-l+1=Hash(l,r)

ll pow(int x,int n,int p)
{
    if (n==0) return 1;
    if (n==1) return x%p;
    ll t=t*t%p;
    if (n%2==1) t=t*x%p;
    return t;
}
ll Hash(int l,int r)
{
    return ((hash[r]-hash[l-1]*pow(e,r-l+1,mo)%mo)%mo+mo)%mo;
}

其他hash方法

1. unsigned long long hash[N];
hash[i]=hash[i-1]*p（自动取模） (保险度***) 常数（几乎没有）（容易被卡）
2. hash[i]=(hash[i-1]*p+idx(s[i]))%mod （保险度****）常数（有一点）（一般）
3. 双hash
hash1[i]=(hash1[i-1]*p+idx(s[i]))%mod1
hash2[i]=(hash2[i-1]*p+idx(s[i]))%mod2
pair<hash1,hash2>表示一个字符串！（保险度*****）常数（比较大）（孪生质数不可能被卡）

推荐：hash[i]=(hash[i-1]*p+idx(s[i]))%mod （保险度****）常数（有一点）（一般）

题目描述

如题，给定N个字符串（第i个字符串长度为Mi，字符串内包含数字、大小写字母，大小写敏感），请求出N个字符串中共有多少个不同的字符串。

输入输出格式

输入格式：

第一行包含一个整数N，为字符串的个数。

接下来N行每行包含一个字符串，为所提供的字符串。

输出格式：

输出包含一行，包含一个整数，为不同的字符串个数。

输入输出样例

输入样例#1：复制

5
abc
aaaa
abc
abcc
12345

输出样例#1：复制

说明

时空限制：1000ms,128M

数据规模：

对于30%的数据：N<=10，Mi≈6，Mmax<=15;

对于70%的数据：N<=1000，Mi≈100，Mmax<=150

对于100%的数据：N<=10000，Mi≈1000，Mmax<=1500

样例说明：

样例中第一个字符串(abc)和第三个字符串(abc)是一样的，所以所提供字符串的集合为{aaaa,abc,abcc,12345}，故共计4个不同的字符串。

Tip：感兴趣的话，你们可以先看一看以下三题：

BZOJ3097：http://www.lydsy.com/JudgeOnline/problem.php?id=3097

BZOJ3098：http://www.lydsy.com/JudgeOnline/problem.php?id=3098

BZOJ3099：http://www.lydsy.com/JudgeOnline/problem.php?id=3099

如果你仔细研究过了（或者至少仔细看过AC人数的话），我想你一定会明白字符串哈希的正确姿势的^_^

posted @ 2018-08-28 14:31 ljc20020730 阅读(364) 评论(0) 编辑收藏举报

刷新页面返回顶部

ljc20020730

hi！我回来啦！这次带来一个好消息！我回来啦作为一个ACMer. 我的新博客是cnblogs.com/maystern 做了美化哦！快来看看吧。

【字符串算法1】再谈字符串Hash（优雅的暴力）

【字符串算法1】字符串Hash（优雅的暴力）

【字符串算法2】Manacher算法

【字符串算法3】KMP算法

这里将讲述【字符串算法1】字符串Hash

老版原文： RK哈希（Rabin_Karp 哈希）仅仅具有参考价值

新版题目：【字符串算法1】再谈字符串Hash（优雅的暴力）

概念

对字符进行映射

对字符串进行映射

Hash值的性质

例子

冲突：

求出每个子串的hash值

其他hash方法

题目描述

输入输出格式

输入输出样例

说明

公告

ljc20020730

hi！我回来啦！这次带来一个好消息！我回来啦作为一个ACMer. 我的新博客是cnblogs.com/maystern 做了美化哦！快来看看吧。

【字符串算法1】 再谈字符串Hash（优雅的暴力）

【字符串算法1】 字符串Hash（优雅的暴力）

【字符串算法2】Manacher算法

【字符串算法3】KMP算法

这里将讲述 【字符串算法1】 字符串Hash

老版原文： RK哈希（Rabin_Karp 哈希） 仅仅具有参考价值

新版题目：【字符串算法1】 再谈字符串Hash（优雅的暴力）

概念

对字符进行映射

对字符串进行映射

Hash值的性质

例子

冲突：

求出每个子串的hash值

其他hash方法

P3370 【模板】字符串哈希

题目描述

输入输出格式

输入输出样例

说明

公告

【字符串算法1】再谈字符串Hash（优雅的暴力）

【字符串算法1】字符串Hash（优雅的暴力）

这里将讲述【字符串算法1】字符串Hash

老版原文： RK哈希（Rabin_Karp 哈希）仅仅具有参考价值

新版题目：【字符串算法1】再谈字符串Hash（优雅的暴力）