【博客】提高级字符串

哈希和哈希表

前缀函数&&KMP

推荐阅读 从头到尾彻底理解KMP

前缀函数

定义:\(nxt[i]\)\(s[1....i]\)这一子串中最长的相等的前后缀的长度
比如字符串abcabcd

子串a:\(nxt[1]=0\)
子串ab:\(nxt[2]=0\)
子串abc:\(nxt[3]=0\)
子串abca:\(nxt[4]=1\)
子串abcab:\(nxt[5]=2\)
......

求法:

观察到 相邻的前缀函数的值最多增加1
用i j两个指针从左往右处理一个字符串
i在右 j在左 将i不断向右移动

如果匹配上了 j就向右移动一位 并记录nxt的值
image

如果不匹配
朴素想法是将j指针移到最左端 重新开始
但我们可以利用已经求好的nxt来优化一下
将j移到\(nxt[j]\)
因为根据nxt数组的定义 \(s[1...nxt[j]]\)\(s[j-nxt[j]+1...j]\)是相同的
所以可以免去1~nxt[j]的比较

image
如图 i与j不匹配
j跳到nxt[j]
根据nxt的定义 绿线部分和红线部分是相等的
而红线和蓝线部分是之前扩展来的 是相等的
所以绿线和蓝线是相等的
也就是免去了绿线和蓝线这一部分的比较
跳完后继续比较i j

如果仍然不匹配 再次把j跳到nxt[j] 直到匹配为止

代码如下

void pre()
{
    nxt[1]=0;
    for(int i=1,j=0;i<len2;i++)
    {
        while(j && s2[i]!=s2[j]) j=nxt[j];
        if(s2[i]==s2[j]) j++;
        nxt[i+1]=j;
    }
}

KMP

KMP应用了前面提到的前缀函数 解决在字符串中匹配子串的问题

先求出模式串的nxt函数

之后与求前缀函数的过程类似
用i j两个指针从左向右移动
i指针不断向右移动
每次移动后看是否匹配
如果匹配了
j指针向右移动一下
如果不匹配
j跳到nxt[j]的位置
image
如图
根据nxt的定义 红线部分和绿线部分是相等的
根据匹配的过程 绿线部分和蓝线部分是相等的
所以红线部分和蓝线部分是相等的
就免除了这一部分的比较

跳完后 继续匹配 不匹配继续跳

如果j达到了模式串的长度
证明匹配到了 ans++
如果题目要求匹配的子串之间不重叠
则j=0 从头开始匹配
ybt1465剪花布条
如果题目不要求重叠
则j=nxt[j]
luogu3375 KMP模板

当i到了匹配串的长度时 过程结束

KMP匹配时和求解前缀函数时是类似的
求解前缀函数的过程可以看作是一个模式串自己匹配的过程

例题

1.无线传输(luogu4391/ybt1467)

求一个字符串的最短周期
结论:

\[ans=n-nxt[n] \]

证明:
image
两条白线是最长的相等的前缀和后缀
可得
\(1=2,2=3,3=4,4=5......\)
所以周期的长度就是1的长度
也就是\(n-nxt[n]\)

2.power strings(ybt1457/poj2406)

求一个字符串最多是由多少个相同的子字符串重复连接而成的
利用前缀函数的性质解决
结论:
如果\(L\)能被\(L-nxt[L]\)整除就满足题意,个数为除完的结果,否则为1
证明:
合法情况:
image
不合法情况:
image

trie树

trie树的思想在AC自动机中有体现

例题1
ybt1471 phone list
在一堆字符串中查询是否存在两个字符串是前缀关系
存在输出NO
不存在输出YES
什么神奇的对应关系
建字典树 枚举每个串 如果还存在子节点就OK了

例题2
ybt1472
考虑建一棵01字典树,对每一个数字进行一次插入和查询的操作,尽可能的使得每一次查询的时候,我们都选择与当前位相反的走,也就是让异或值最大,如果说没有路可以走的话,那么就走相同的路。
用ans存一下最大值

AC自动机

#include<bits/stdc++.h>
using namespace std;
struct Tree
{
    int fail;
    int vis[26];
    int end;
}AC[100005];
int cnt=0;
void build(string s)
{
    int l=s.length();
    int now=0;
    for(int i=0;i<l;i++)
    {
        if(AC[now].vis[s[i]-'a']==0)
            AC[now].vis[s[i]-'a']=++cnt;
        now=AC[now].vis[s[i]-'a'];
    }
    AC[now].end+=1;
}
void get_fail()
{
    queue<int> q;//BFS思想
    for(int i=0;i<26;i++)//预处理第一层
    {
        if(AC[0].vis[i]!=0)
        {
            AC[AC[0].vis[i]].fail=0;
            q.push(AC[0].vis[i]);
        }
    }
    while(!q.empty())
    {
        int u=q.front();
        q.pop();
        for(int i=0;i<26;i++)
        {
            if(AC[u].vis[i]!=0)//如果存在 找父亲的失配指针指的点是否有相同的孩子 没有继续找
            {
                AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i];
                q.push(AC[u].vis[i]);
            }
            else
                AC[u].vis[i]=AC[AC[u].fail].vis[i];
                //优化 画图可感 提前处理好
        }
    }
}
int AC_query(string s)
{
    int l=s.length();
    int now=0,ans=0;
    for(int i=0;i<l;i++)
    {
        now=AC[now].vis[s[i]-'a'];
        for(int t=now;t && AC[t].end!=-1;t=AC[t].fail)
        {
            ans+=AC[t].end;
            AC[t].end=-1;
        }
    }
    return ans;
}
void init()
{
    memset(AC,0,sizeof AC);
    cnt=0;
}
int main()
{
    ios::sync_with_stdio(0);
    cin.tie(0);
    cout.tie(0);
    int t;
    cin>>t;
    while(t--) {
        init();
        int n;
        string s;
        cin >> n;
        for (int i = 1; i <= n; i++) {
            cin >> s;
            build(s);
        }
        AC[0].fail = 0;
        get_fail();
        cin >> s;
        cout << AC_query(s) << '\n';
    }
    return 0;
}

posted @ 2024-03-14 19:00  zysssss  阅读(21)  评论(2编辑  收藏  举报