Aho-Corasick自动机(AC自动机)
AC自动机 (Aho-Corasick Algorithm)。#
AC自动机是多模匹配算法,在一个文本串
多模匹配问题:给定一个长为
AC自动机思想#
AC自动机思想:AC 自动机 = 用字典树组织多个模式串 + KMP避免回溯。
AC自动机的构造#
文中
举例:
- 先把所有的模式串建成字典树,节点0是分界点,不存储字符。
- 再建立Fail指针, 一个节点
的Fail指针指向的节点是“父节点的Fail指针所指向的节点的与 同字符的子节点”。 通过这样的赋值, 得到了这个同字符节点的后缀关系(不懂可以继续往下看)。
Fail指针的计算#
Fail指针的计算,可以使用BFS进行处理。
分为两种情况:
如上图:
-
的处理很简单,就是父亲 的Fail节点 指向的 。 -
但要处理
的较为麻烦,有如下步骤:
实际上是直接把
AC自动机的查找#
查找只要在Trie树上遍历一遍字符串
例题
第一部分 模板题#
P3808 【模板】AC 自动机(简单版)#
本题纯模板
#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>
using namespace std;
const int N = 1000010;
struct AhoCorasick { // AC自动机
int ch[N][26]; // Trie树
int fail[N]; // Fail指针
int val[N], idx; // 单词末尾标记(val) 以及 单词节点个数 (idx)
void insert(char s[]) { // Trie树的插入
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
if (!ch[p][u]) ch[p][u] = ++idx;
p = ch[p][u];
}
val[p]++;
}
void getfail() { // 计算fail指针
queue<int> q; // 采用BFS进行处理,所以要用到队列
for (int i = 0; i < 26; i++) {
if (ch[0][i]) { // 把第一层的节点插入队列
q.push(ch[0][i]);
}
}
while (q.size()) { //BFS
int t = q.front();
q.pop();
for (int i = 0; i < 26; i++) {
if (ch[t][i]) { // 如果t有i这个节点
fail[ch[t][i]] = ch[fail[t]][i]; // 那么Fail = “与父节点的Fail指针所指向的节点的与 x 同字符的子节点”
q.push(ch[t][i]); // 插入队列
}
else ch[t][i] = ch[fail[t]][i]; // 否则建立虚拟节点,也就是图中 c(3)连向 c(6)
}
}
}
int query(char s[]) {
int p = 0, ans = 0; // 当前节点(p)与答案(ans)
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
p = ch[p][u]; // 前往子节点
int v = p; // 统计v, fail[v], fail[fail[v]], ...
while (v && val[v] != -1) { // 统计v, fail[v], fail[fail[v]], ...
ans += val[v]; // 统计答案
val[v] = -1; // 避免重复统计
v = fail[v]; // 前往 fail[v]
}
}
return ans;
}
}ac;
int n;
char text[N];
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
cin >> n;
for (int i = 1; i <= n; i++) {
cin >> (text + 1);
ac.insert(text);
}
ac.getfail();
cin >> (text + 1);
cout << ac.query(text) << '\n';
return 0;
}
HDU2222 Keywords Search#
本题纯模板
初始化时一定要初始化fail!!!
#include <iostream>
#include <cstring>
#include <algorithm>
using namespace std;
const int N = 1000010;
struct AhoCorasick {
int ch[N][26];
int val[N], idx;
int fail[N];
int q[N];
void init() {
memset(ch[0], 0, sizeof(ch[0]));
memset(fail, 0, sizeof(fail));
idx = 0;
}
void insert(char s[]) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
if (!ch[p][u]) {
ch[p][u] = ++idx;
memset(ch[idx], 0, sizeof(ch[idx]));
val[idx] = 0;
}
p = ch[p][u];
}
val[p]++;
}
void getfail() {
int hh = 0, tt = -1;
for (int i = 0; i < 26; i++) {
if (ch[0][i]) {
q[++tt] = ch[0][i];
}
}
while (hh <= tt) {
int t = q[hh++];
for (int i = 0; i < 26; i++) {
if (ch[t][i]) {
fail[ch[t][i]] = ch[fail[t]][i];
q[++tt] = ch[t][i];
}
else ch[t][i] = ch[fail[t]][i];
}
}
}
int query(char s[]) {
int p = 0, ans = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
p = ch[p][u];
int v = p;
while (v && val[v] != -1) {
ans += val[v];
val[v] = -1;
v = fail[v];
}
}
return ans;
}
}ac;
char text[N];
void solve() {
int n;
cin >> n;
ac.init();
for (int i = 1; i <= n; i++) {
cin >> (text + 1);
ac.insert(text);
}
cin >> (text + 1);
ac.getfail();
cout << ac.query(text) << '\n';
}
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
int T;
cin >> T;
while (T--) solve();
return 0;
}
P3796 【模板】AC 自动机(加强版)#
本题只需要将
#include <iostream>
#include <cstring>
#include <algorithm>
#include <queue>
using namespace std;
const int N = 80 * 160, M = 1000010;
struct AhoCorasick {
int ch[N][26];
int val[N], idx;
int fail[N];
int q[N]; // queue
int cnt[N]; // 记录每个串的出现次数
void init() {
memset(ch[0], 0, sizeof(ch[0]));
memset(fail, 0, sizeof(fail));
memset(cnt, 0, sizeof(cnt));
idx = 0;
}
void insert(char s[], int id) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
if (!ch[p][u]) {
ch[p][u] = ++idx;
memset(ch[idx], 0, sizeof(ch[idx]));
val[idx] = 0;
}
p = ch[p][u];
}
val[p] = id;
}
void getfail() {
int hh = 0, tt = -1;
for (int i = 0; i < 26; i++) {
if (ch[0][i]) {
q[++tt] = ch[0][i];
}
}
while (hh <= tt) {
int t = q[hh++];
for (int i = 0; i < 26; i++) {
if (ch[t][i]) {
fail[ch[t][i]] = ch[fail[t]][i];
q[++tt] = ch[t][i];
}
else ch[t][i] = ch[fail[t]][i];
}
}
}
void query(char s[]) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
p = ch[p][u];
int v = p;
while (v) {
if (val[v]) cnt[val[v]]++;
v = fail[v];
}
}
}
}ac;
int n;
char text[M];
char tmp[160][80];
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
while (cin >> n, n) {
ac.init();
for (int i = 1; i <= n; i++) {
cin >> (tmp[i] + 1);
ac.insert(tmp[i], i);
}
ac.getfail();
cin >> (text + 1);
ac.query(text);
int maxx = *max_element(ac.cnt + 1, ac.cnt + n + 1);
cout << maxx << '\n';
for (int i = 1; i <= n; i++) {
if (ac.cnt[i] == maxx) {
cout << tmp[i] + 1 << '\n';
}
}
}
return 0;
}
P5357 【模板】AC 自动机(二次加强版)#
显然,一个一个统计会超时。
我们可以想到,当标记
那我们可以使用树上差分的思想,本来是由
最后像树上差分一样自下而上地统计,因为
#include <iostream>
#include <cstring>
#include <algorithm>
using namespace std;
const int N = 200010, M = 2000010;
int n;
char text[M];
struct Edge {
int to, next;
}e[N];
int head[N], idx;
void add(int a, int b) {
idx++, e[idx].to = b, e[idx].next = head[a], head[a] = idx;
}
struct AhoCorasick {
int ch[N][26];
int cnt[N];
int val[N], idx;
int fail[N];
int q[N];
void insert(char s[], int id) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
if (!ch[p][u]) ch[p][u] = ++idx;
p = ch[p][u];
}
val[id] = p;
}
void getfail() {
int hh = 0, tt = -1;
for (int i = 0; i < 26; i++) {
if (ch[0][i]) {
q[++tt] = ch[0][i];
}
}
while (hh <= tt) {
int t = q[hh++];
for (int i = 0; i < 26; i++) {
if (ch[t][i]) {
fail[ch[t][i]] = ch[fail[t]][i];
q[++tt] = ch[t][i];
}
else ch[t][i] = ch[fail[t]][i];
}
}
for (int i = 1; i <= idx; i++) add(fail[i], i);
}
void query(char s[]) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'a';
p = ch[p][u];
cnt[p]++;
}
}
}ac;
void dfs(int u) {
for (int i = head[u]; i; i = e[i].next) {
int to = e[i].to;
dfs(to);
ac.cnt[u] += ac.cnt[to];
}
}
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
cin >> n;
for (int i = 1; i <= n; i++) {
cin >> (text + 1);
ac.insert(text, i);
}
ac.getfail();
cin >> (text + 1);
ac.query(text);
dfs(0);
for (int i = 1; i <= n; i++) {
cout << ac.cnt[ac.val[i]] << '\n';
}
return 0;
}
第二部分 AC自动机与DP的结合#
P4052 [JSOI2007]文本生成器#
设
有
表示由第
代码:
#include <iostream>
#include <cstring>
#include <algorithm>
using namespace std;
const int N = 6010, mod = 1e4 + 7;
struct AhoCorasick {
int ch[N][26];
int val[N], idx;
int fail[N], q[N];
bool can_read[N];
void insert(char s[]) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'A';
if (!ch[p][u]) ch[p][u] = ++idx;
p = ch[p][u];
}
val[p]++;
can_read[p] = true;
}
void getfail() {
int hh = 0, tt = -1;
for (int i = 0; i < 26; i++) {
if (ch[0][i]) {
q[++tt] = ch[0][i];
}
}
while (hh <= tt) {
int t = q[hh++];
if (can_read[fail[t]]) can_read[t] = true;
for (int i = 0; i < 26; i++) {
if (ch[t][i]) {
fail[ch[t][i]] = ch[fail[t]][i];
q[++tt] = ch[t][i];
}
else ch[t][i] = ch[fail[t]][i];
}
}
}
}ac;
int n, m;
char text[N];
int f[110][N];
void dp() {
f[0][0] = 1;
for (int i = 0; i <= m; i++) {
for (int j = 0; j <= ac.idx; j++) {
for (int k = 0; k < 26; k++) {
if (!ac.can_read[ac.ch[j][k]]) {
f[i + 1][ac.ch[j][k]] = (f[i + 1][ac.ch[j][k]] + f[i][j]) % mod;
}
}
}
}
}
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
cin >> n >> m;
for (int i = 1; i <= n; i++) {
cin >> (text + 1);
ac.insert(text);
}
ac.getfail();
dp();
int sum = 0, ans = 1;
for (int i = 1; i <= m; i++) ans = (ans * 26) % mod;
for (int i = 0; i <= ac.idx; i++) sum = (sum + f[m][i]) % mod;
cout << ((ans - sum) % mod + mod) % mod << '\n';
return 0;
}
P3041 [USACO12JAN]Video Game G#
思路同上一题,使用
那么有
#include <iostream>
#include <cstring>
#include <algorithm>
using namespace std;
const int N = 400;
struct AhoCorasick {
int ch[N][3];
int val[N], idx;
int fail[N];
int q[N];
void insert(char s[]) {
int p = 0;
for (int i = 1; s[i]; i++) {
int u = s[i] - 'A';
if (!ch[p][u]) ch[p][u] = ++idx;
p = ch[p][u];
}
val[p]++;
}
void getfail() {
int hh = 0, tt = -1;
for (int i = 0; i < 3; i++) {
if (ch[0][i]) {
q[++tt] = ch[0][i];
}
}
while (hh <= tt) {
int t = q[hh++];
for (int i = 0; i < 3; i++) {
if (ch[t][i]) {
fail[ch[t][i]] = ch[fail[t]][i];
q[++tt] = ch[t][i];
}
else ch[t][i] = ch[fail[t]][i];
}
val[t] += val[fail[t]];
}
}
}ac;
int n, m;
char text[N];
int f[1010][N];
void dp() {
memset(f, 0xcf, sizeof(f));
for (int i = 0; i <= m; i++) f[i][0] = 0;
for (int i = 0; i < m; i++) {
for (int j = 0; j <= ac.idx; j++) {
for (int k = 0; k < 3; k++) {
f[i + 1][ac.ch[j][k]] = max(f[i + 1][ac.ch[j][k]], f[i][j] + ac.val[ac.ch[j][k]]);
}
}
}
}
int main() {
ios::sync_with_stdio(false);
cin.tie(nullptr);
cin >> n >> m;
for (int i = 1; i <= n; i++) {
cin >> (text + 1);
ac.insert(text);
}
ac.getfail();
dp();
int ans = 0;
for (int i = 0; i <= ac.idx; i++) ans = max(ans, f[m][i]);
cout << ans << '\n';
return 0;
}
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具