算法
顾名思义,就是将后缀按照字典序排序。
考虑倍增的思路,先按长度为\(len\)排序,\(O(n)\)推出长度为\(2*len\)的排序,只需要合并两个长度为\(len\)的字符串。
记\(rk(i)\)表示\(i\)开始往后长度为当前\(len\)的后缀排名,\(SA(i)\)为排第\(i\)的下标。
合并相当于先按后\(len\)个排序(已经得到了),然后再按前\(len\)排序,排名相同不改变按后\(len\)个排序的顺序。
代码如下:
点击查看代码
void _sort() {
for(int i = 1; i <= m; i++) c[i] = 0;
for(int i = 1; i <= n; i++) c[rk[i]]++;
for(int i = 1; i <= m; i++) c[i] += c[i-1];
for(int i = n; i >= 1; i--) SA[c[rk[y[i]]]--] = y[i];
}
void _SAS() {
for(int i = 1; i <= n; i++) rk[i] = s[i], y[i]=i;
_sort();
for(int k = 1; k < n; k <<= 1) {
int cc = 0;
for(int i = n - k + 1; i <= n; i++)y[++cc] = i;
for(int i = 1; i <= n; i++)if(SA[i] > k)y[++cc]= SA[i] - k;
_sort(); swap(tmp, rk); cc = 1; rk[SA[1]] = 1;
for(int i = 2; i <= n; i++) rk[SA[i]] = (tmp[SA[i]] == tmp[SA[i-1]] && tmp[SA[i] + k] == tmp[SA[i-1] + k]) ? cc:++cc;
m = cc;
}
for(int i = 1; i <= n; i++) printf("%d ", SA[i]); puts("");
}
LCP相关(Height数组)
\(Height(i)\):\(LCP(\ Suf(SA_i),Suf(SA_{i-1})\ )\)
\(H(i): Height(rk_i)\)
性质:(后面补证明):\(H(i)\ge H(i-1) - 1\)
因此直接从\(H(i)=H(i-1)-1\)开始\(H(i)++\)暴力判断。
code:
点击查看代码
for(int i = 1, j; i <= n; i++) {
if(rk[i] == 1) continue;
for(H[i] = max(0, H[i - 1] - 1), j = SA[rk[i] - 1]; s[i + H[i]] == s[j + H[i]]; H[i]++);
ht[rk[i]] = H[i];
}
求两后缀LCP
找到它们在\(SA\)中的位置,求之间\(height\)的最小值。ST预处理一下即可。