【博客】提高级字符串
哈希和哈希表
前缀函数&&KMP
推荐阅读 从头到尾彻底理解KMP
前缀函数
定义:\(nxt[i]\)为\(s[1....i]\)这一子串中最长的相等的前后缀的长度
比如字符串abcabcd
子串a:\(nxt[1]=0\)
子串ab:\(nxt[2]=0\)
子串abc:\(nxt[3]=0\)
子串abca:\(nxt[4]=1\)
子串abcab:\(nxt[5]=2\)
......
求法:
观察到 相邻的前缀函数的值最多增加1
用i j两个指针从左往右处理一个字符串
i在右 j在左 将i不断向右移动
如果匹配上了 j就向右移动一位 并记录nxt的值
如果不匹配
朴素想法是将j指针移到最左端 重新开始
但我们可以利用已经求好的nxt来优化一下
将j移到\(nxt[j]\)处
因为根据nxt数组的定义 \(s[1...nxt[j]]\)与\(s[j-nxt[j]+1...j]\)是相同的
所以可以免去1~nxt[j]的比较
如图 i与j不匹配
j跳到nxt[j]
根据nxt的定义 绿线部分和红线部分是相等的
而红线和蓝线部分是之前扩展来的 是相等的
所以绿线和蓝线是相等的
也就是免去了绿线和蓝线这一部分的比较
跳完后继续比较i j
如果仍然不匹配 再次把j跳到nxt[j] 直到匹配为止
代码如下
void pre()
{
nxt[1]=0;
for(int i=1,j=0;i<len2;i++)
{
while(j && s2[i]!=s2[j]) j=nxt[j];
if(s2[i]==s2[j]) j++;
nxt[i+1]=j;
}
}
KMP
KMP应用了前面提到的前缀函数 解决在字符串中匹配子串的问题
先求出模式串的nxt函数
之后与求前缀函数的过程类似
用i j两个指针从左向右移动
i指针不断向右移动
每次移动后看是否匹配
如果匹配了
j指针向右移动一下
如果不匹配
j跳到nxt[j]的位置
如图
根据nxt的定义 红线部分和绿线部分是相等的
根据匹配的过程 绿线部分和蓝线部分是相等的
所以红线部分和蓝线部分是相等的
就免除了这一部分的比较
跳完后 继续匹配 不匹配继续跳
如果j达到了模式串的长度
证明匹配到了 ans++
如果题目要求匹配的子串之间不重叠
则j=0 从头开始匹配
ybt1465剪花布条
如果题目不要求重叠
则j=nxt[j]
luogu3375 KMP模板
当i到了匹配串的长度时 过程结束
KMP匹配时和求解前缀函数时是类似的
求解前缀函数的过程可以看作是一个模式串自己匹配的过程
例题
1.无线传输(luogu4391/ybt1467)
求一个字符串的最短周期
结论:
证明:
两条白线是最长的相等的前缀和后缀
可得
\(1=2,2=3,3=4,4=5......\)
所以周期的长度就是1的长度
也就是\(n-nxt[n]\)
2.power strings(ybt1457/poj2406)
求一个字符串最多是由多少个相同的子字符串重复连接而成的
利用前缀函数的性质解决
结论:
如果\(L\)能被\(L-nxt[L]\)整除就满足题意,个数为除完的结果,否则为1
证明:
合法情况:
不合法情况:
trie树
trie树的思想在AC自动机中有体现
例题1
ybt1471 phone list
在一堆字符串中查询是否存在两个字符串是前缀关系
存在输出NO
不存在输出YES
什么神奇的对应关系
建字典树 枚举每个串 如果还存在子节点就OK了
例题2
ybt1472
考虑建一棵01字典树,对每一个数字进行一次插入和查询的操作,尽可能的使得每一次查询的时候,我们都选择与当前位相反的走,也就是让异或值最大,如果说没有路可以走的话,那么就走相同的路。
用ans存一下最大值
AC自动机
#include<bits/stdc++.h>
using namespace std;
struct Tree
{
int fail;
int vis[26];
int end;
}AC[100005];
int cnt=0;
void build(string s)
{
int l=s.length();
int now=0;
for(int i=0;i<l;i++)
{
if(AC[now].vis[s[i]-'a']==0)
AC[now].vis[s[i]-'a']=++cnt;
now=AC[now].vis[s[i]-'a'];
}
AC[now].end+=1;
}
void get_fail()
{
queue<int> q;//BFS思想
for(int i=0;i<26;i++)//预处理第一层
{
if(AC[0].vis[i]!=0)
{
AC[AC[0].vis[i]].fail=0;
q.push(AC[0].vis[i]);
}
}
while(!q.empty())
{
int u=q.front();
q.pop();
for(int i=0;i<26;i++)
{
if(AC[u].vis[i]!=0)//如果存在 找父亲的失配指针指的点是否有相同的孩子 没有继续找
{
AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i];
q.push(AC[u].vis[i]);
}
else
AC[u].vis[i]=AC[AC[u].fail].vis[i];
//优化 画图可感 提前处理好
}
}
}
int AC_query(string s)
{
int l=s.length();
int now=0,ans=0;
for(int i=0;i<l;i++)
{
now=AC[now].vis[s[i]-'a'];
for(int t=now;t && AC[t].end!=-1;t=AC[t].fail)
{
ans+=AC[t].end;
AC[t].end=-1;
}
}
return ans;
}
void init()
{
memset(AC,0,sizeof AC);
cnt=0;
}
int main()
{
ios::sync_with_stdio(0);
cin.tie(0);
cout.tie(0);
int t;
cin>>t;
while(t--) {
init();
int n;
string s;
cin >> n;
for (int i = 1; i <= n; i++) {
cin >> s;
build(s);
}
AC[0].fail = 0;
get_fail();
cin >> s;
cout << AC_query(s) << '\n';
}
return 0;
}