Aho-Corasick自动机(AC自动机)

AC自动机 (Aho-Corasick Algorithm)。#

AC自动机是多模匹配算法,在一个文本串 T 中查找多个不同的模式串 S

多模匹配问题:给定一个长为 n 的文本 S, 以及 k 个平均长度为 m 的模式串 P1,P2,,Pk

AC自动机思想#

AC自动机思想:AC 自动机 = 用字典树组织多个模式串 + KMP避免回溯。

AC自动机的构造#

文中 () 表示节点编号为

举例:

abcd,b,cd

  • 先把所有的模式串建成字典树,节点0是分界点,不存储字符。

img

  • 再建立Fail指针, 一个节点 x 的Fail指针指向的节点是“父节点的Fail指针所指向的节点的与 x 同字符的子节点”。 通过这样的赋值, x 得到了这个同字符节点的后缀关系(不懂可以继续往下看)。

img

Fail指针的计算#

Fail指针的计算,可以使用BFS进行处理。

分为两种情况:

如上图:

  1. b 的处理很简单,就是父亲 a 的Fail节点 0 指向的 b(5)

  2. 但要处理 c 的较为麻烦,有如下步骤:

img

img

实际上是直接把 b(5) 的 儿子 c 当作 c(6)

img

img

AC自动机的查找#

查找只要在Trie树上遍历一遍字符串 T,统计到 Ti 时,记得把 fail[Ti],fail[fail[Ti]],fail[fail[fail[Ti]]], 都统计上。

例题

第一部分 模板题#

P3808 【模板】AC 自动机(简单版)#

本题纯模板

#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>

using namespace std;

const int N = 1000010;

struct AhoCorasick {			                        // AC自动机
    int ch[N][26];			                            // Trie树
    int fail[N];				                        // Fail指针
    int val[N], idx;			                        // 单词末尾标记(val) 以及 单词节点个数 (idx)

    void insert(char s[]) {		                        // Trie树的插入
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[p]++;
    }

    void getfail() {		                            // 计算fail指针
        queue<int> q;	                                // 采用BFS进行处理,所以要用到队列
        
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {	                            // 把第一层的节点插入队列
                q.push(ch[0][i]);
            }
        }

        while (q.size()) {	                            //BFS
            int t = q.front();
            q.pop();

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {	                        // 如果t有i这个节点
                    fail[ch[t][i]] = ch[fail[t]][i];	// 那么Fail = “与父节点的Fail指针所指向的节点的与 x 同字符的子节点”
                    q.push(ch[t][i]);                   // 插入队列
                }
                else ch[t][i] = ch[fail[t]][i];	        // 否则建立虚拟节点,也就是图中 c(3)连向 c(6)
            }
        }
    }

    int query(char s[]) {
        int p = 0, ans = 0;                             // 当前节点(p)与答案(ans)
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];                               // 前往子节点
            int v = p;                                  // 统计v, fail[v], fail[fail[v]], ...
            while (v && val[v] != -1) {                 // 统计v, fail[v], fail[fail[v]], ...
                ans += val[v];                          // 统计答案
                val[v] = -1;                            // 避免重复统计
                v = fail[v];                            // 前往 fail[v]
            }
        }
        return ans;
    }
}ac;

int n;
char text[N];

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n;

    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }
    ac.getfail();
    cin >> (text + 1);
    cout << ac.query(text) << '\n';
    return 0;
}

本题纯模板

初始化时一定要初始化fail!!!

#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 1000010;

struct AhoCorasick {
    int ch[N][26];
    int val[N], idx;
    int fail[N];
    int q[N];
    
    void init() {
        memset(ch[0], 0, sizeof(ch[0]));
        memset(fail, 0, sizeof(fail));
        idx = 0;
    }

    void insert(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) {
                ch[p][u] = ++idx;
                memset(ch[idx], 0, sizeof(ch[idx]));
                val[idx] = 0;
            }
            p = ch[p][u];
        }
        val[p]++;
    }

    void getfail() {
        int hh = 0, tt = -1;

        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];
            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
    }

    int query(char s[]) {
        int p = 0, ans = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];
            int v = p;
            while (v && val[v] != -1) {
                ans += val[v];
                val[v] = -1;
                v = fail[v];
            }
        }
        return ans;
    }
}ac;

char text[N];

void solve() {
    int n;
    cin >> n;

    ac.init();

    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }

    cin >> (text + 1);
    ac.getfail();
    cout << ac.query(text) << '\n';
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    int T;
    cin >> T;
    while (T--) solve();
    return 0;
}

P3796 【模板】AC 自动机(加强版)#

本题只需要将 val[v]=1 的标记去掉,再统计每一个单词的出现数量 cnt[u] 即可。

#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>

using namespace std;

const int N = 80 * 160, M = 1000010;

struct AhoCorasick {
    int ch[N][26];
    int val[N], idx;
    int fail[N];
    int q[N];                       // queue
    int cnt[N];                     // 记录每个串的出现次数

    void init() {
        memset(ch[0], 0, sizeof(ch[0]));
        memset(fail, 0, sizeof(fail));
        memset(cnt, 0, sizeof(cnt));
        idx = 0;
    }

    void insert(char s[], int id) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) {
                ch[p][u] = ++idx;
                memset(ch[idx], 0, sizeof(ch[idx]));
                val[idx] = 0;
            }
            p = ch[p][u];
        }
        val[p] = id;
    }

    void getfail() {
        int hh = 0, tt = -1;
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
    }

    void query(char s[]) {
        int p = 0;

        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];
            int v = p;
            while (v) {
                if (val[v]) cnt[val[v]]++;
                v = fail[v];
            }
        }
    }
}ac;

int n;
char text[M];
char tmp[160][80];

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    while (cin >> n, n) {
        ac.init();
        for (int i = 1; i <= n; i++) {
            cin >> (tmp[i] + 1);
            ac.insert(tmp[i], i);
        }
        ac.getfail();
        cin >> (text + 1);
        ac.query(text);
        int maxx = *max_element(ac.cnt + 1, ac.cnt + n + 1);
        cout << maxx << '\n';
        for (int i = 1; i <= n; i++) {
            if (ac.cnt[i] == maxx) {
                cout << tmp[i] + 1 << '\n';
            }
        }
    }
    return 0;
}

P5357 【模板】AC 自动机(二次加强版)#

显然,一个一个统计会超时。

我们可以想到,当标记 p 时,fail[p],fail[fail[p]] 都会被标记,因此这里浪费了时间。

那我们可以使用树上差分的思想,本来是由 p 指向 fail[p], 现在改由 fail[p] 指向 p,当匹配到节点 p 时,cnt[p]+1 即可。

最后像树上差分一样自下而上地统计,因为 p 有的,fail[p] 也必须拥有。

#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 200010, M = 2000010;

int n;
char text[M];

struct Edge {
    int to, next;
}e[N];

int head[N], idx;

void add(int a, int b) {
    idx++, e[idx].to = b, e[idx].next = head[a], head[a] = idx;
}

struct AhoCorasick {
    int ch[N][26];
    int cnt[N];
    int val[N], idx;
    int fail[N];
    int q[N];

    void insert(char s[], int id) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[id] = p;
    }

    void getfail() {
        int hh = 0, tt = -1;
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
        for (int i = 1; i <= idx; i++) add(fail[i], i);
    }

    void query(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'a';
            p = ch[p][u];
            cnt[p]++;
        }
    }
}ac;

void dfs(int u) {
    for (int i = head[u]; i; i = e[i].next) {
        int to = e[i].to;
        dfs(to);
        ac.cnt[u] += ac.cnt[to];
    }
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n;
    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text, i);
    }
    ac.getfail();
    cin >> (text + 1);
    ac.query(text);

    dfs(0);

    for (int i = 1; i <= n; i++) {
        cout << ac.cnt[ac.val[i]] << '\n';
    }
    return 0;
}

第二部分 AC自动机与DP的结合#

P4052 [JSOI2007]文本生成器#

fi,j 为枚举到第 i 个字符, 现在在Trie树上的第 j 个节点。

fi+1,triej,c+=fi,j

表示由第 i 层的节点(实际上与枚举到第 i 个字符) c 转移到第 i+1 层的节点 c 的儿子 triej,c

代码:

#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 6010, mod = 1e4 + 7;

struct AhoCorasick {
    int ch[N][26];
    int val[N], idx;
    int fail[N], q[N];
    bool can_read[N];

    void insert(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'A';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[p]++;
        can_read[p] = true;
    }

    void getfail() {
        int hh = 0, tt = -1;
        
        for (int i = 0; i < 26; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            if (can_read[fail[t]]) can_read[t] = true;

            for (int i = 0; i < 26; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
        }
    }
}ac;

int n, m;
char text[N];
int f[110][N];

void dp() {
    f[0][0] = 1;
    for (int i = 0; i <= m; i++) {
        for (int j = 0; j <= ac.idx; j++) {
            for (int k = 0; k < 26; k++) {
                if (!ac.can_read[ac.ch[j][k]]) {
                    f[i + 1][ac.ch[j][k]] = (f[i + 1][ac.ch[j][k]] + f[i][j]) % mod;
                }
            }
        } 
    }
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n >> m;
    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }
    ac.getfail();
    dp();
    int sum = 0, ans = 1;
    for (int i = 1; i <= m; i++) ans = (ans * 26) % mod;
    for (int i = 0; i <= ac.idx; i++) sum = (sum + f[m][i]) % mod;
    cout << ((ans - sum) % mod + mod) % mod << '\n';
    return 0;
}

P3041 [USACO12JAN]Video Game G#

思路同上一题,使用 val[i] 记录第 i,fail[i],fail[fail[i]] 号节点作为单词末尾的数量。

那么有 f[i+1][trie[j][c]]=max(f[i][j]+val[trie[j][c]])

#include <iostream>
#include <cstring>
#include <algorithm>

using namespace std;

const int N = 400;

struct AhoCorasick {
    int ch[N][3];
    int val[N], idx;
    int fail[N];
    int q[N];

    void insert(char s[]) {
        int p = 0;
        for (int i = 1; s[i]; i++) {
            int u = s[i] - 'A';
            if (!ch[p][u]) ch[p][u] = ++idx;
            p = ch[p][u];
        }
        val[p]++;
    }

    void getfail() {
        int hh = 0, tt = -1;

        for (int i = 0; i < 3; i++) {
            if (ch[0][i]) {
                q[++tt] = ch[0][i];
            }
        }

        while (hh <= tt) {
            int t = q[hh++];

            for (int i = 0; i < 3; i++) {
                if (ch[t][i]) {
                    fail[ch[t][i]] = ch[fail[t]][i];
                    q[++tt] = ch[t][i];
                }
                else ch[t][i] = ch[fail[t]][i];
            }
            val[t] += val[fail[t]];
        }
    }
}ac;

int n, m;
char text[N];
int f[1010][N];

void dp() {
    memset(f, 0xcf, sizeof(f));
    for (int i = 0; i <= m; i++) f[i][0] = 0;

    for (int i = 0; i < m; i++) {
        for (int j = 0; j <= ac.idx; j++) {
            for (int k = 0; k < 3; k++) {
                f[i + 1][ac.ch[j][k]] = max(f[i + 1][ac.ch[j][k]], f[i][j] + ac.val[ac.ch[j][k]]);
            }
        }
    }
}

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> n >> m;
    for (int i = 1; i <= n; i++) {
        cin >> (text + 1);
        ac.insert(text);
    }
    ac.getfail();
    dp();
    int ans = 0;
    for (int i = 0; i <= ac.idx; i++) ans = max(ans, f[m][i]);
    cout << ans << '\n';
    return 0;
}
posted @   SunnyYuan  阅读(14)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示