2021杭电多校 4D / HDU 6988 - Display Substring (后缀数组)
题意
给定一长度为\(n\)的字符串\(S\)
要求找出在\(S\)的所有互不相同的子串中,能量值排名第\(k\)小的子串的能量值;若不存在输出\(-1\)
定义一个子串的能量值为其所有字符的能量值之和,所有\(26\)个小写字母的能量值已给出
思路
(后缀系列知识点相关的一道好题,可惜赛时不敢往\(O(nlognlogn)\)的方向想)
(使用后缀数组板子时注意下标)
考虑采用后缀数组,已知一个字符串的所有后缀的所有前缀即字符串的子串集合
首先判断排名为\(k\)的子串是否存在,即字符串\(S\)是否具有\(k\)个以上的不同子串
利用后缀数组的\(height\)数组可以得出相邻排名的两后缀的最长公共前缀,则所有后缀长度总和减去\(height\)数组总和即不同子串数量
然后考虑二分答案\(mid\)(即排名为\(k\)的子串的能量值),尝试check寻找能量值小于等于\(mid\)的子串数量
- 如果找出的子串数量\(\ge k\),说明待寻找的答案\(\le mid\)
- 否则,说明答案\(\gt mid\)
然后考虑\(check\),按后缀排名顺序遍历原串的所有后缀,方便去重
排名为\(i\)的后缀在原串中的左边界为\(sa[i]\),右边界即原串末尾
对于某个后缀的前缀而言,前缀的长度增长,总能量值也一定增加,所以仍然存在单调性
对后缀的前缀长度进行二分,找出最长的总能量值不超过\(mid\)的前缀(总能量值可以通过预处理原串的前缀和来直接求出),假设其范围为\([sa[i],r]\)
则这一步我们能够得到,总能量值\(\le mid\)的子串数量即\(r-sa[i]+1\)(即长度)
最后考虑去重,减去前一步已经算入答案的子串;再根据\(height\)数组获得排名为\(i\)与排名为\(i-1\)的后缀的最长公共前缀,故最终应当加入结果的答案为\(r-sa[i]+1-height[i]\),注意可能最长公共前缀较长,值需与\(0\)取大
代码
//#include<ext/pb_ds/assoc_container.hpp>
//#include<ext/pb_ds/hash_policy.hpp>
#include<bits/stdc++.h>
#define closeSync ios::sync_with_stdio(0);cin.tie(0);cout.tie(0)
#define multiCase int T;cin>>T;for(int t=1;t<=T;t++)
#define rep(i,a,b) for(int i=(a);i<=(b);i++)
#define repp(i,a,b) for(int i=(a);i<(b);i++)
#define per(i,a,b) for(int i=(a);i>=(b);i--)
#define perr(i,a,b) for(int i=(a);i>(b);i--)
#define all(a) (a).begin(),(a).end()
#define mst(a,b) memset(a,b,sizeof(a))
#define pb push_back
#define eb emplace_back
#define fi first
#define se second
using namespace std;
//using namespace __gnu_pbds;
typedef long long ll;
typedef unsigned long long ull;
typedef pair<int,int> P;
const int INF=0x3f3f3f3f;
const ll LINF=0x3f3f3f3f3f3f3f3f;
const double eps=1e-12;
const double PI=acos(-1.0);
const ll mod=998244353;
const int dx[8]={0,1,0,-1,1,1,-1,-1},dy[8]={1,0,-1,0,1,-1,1,-1};
void debug(){cerr<<'\n';}template<typename T,typename... Args>void debug(T x,Args... args){cerr<<"[ "<<x<< " ] , ";debug(args...);}
mt19937 mt19937random(std::chrono::system_clock::now().time_since_epoch().count());
ll getRandom(ll l,ll r){return uniform_int_distribution<ll>(l,r)(mt19937random);}
ll gcd(ll a,ll b){return b==0?a:gcd(b,a%b);}
ll qmul(ll a,ll b){ll r=0;while(b){if(b&1)r=(r+a)%mod;b>>=1;a=(a+a)%mod;}return r;}
ll qpow(ll a,ll n){ll r=1;while(n){if(n&1)r=(r*a)%mod;n>>=1;a=(a*a)%mod;}return r;}
ll qpow(ll a,ll n,ll p){ll r=1;while(n){if(n&1)r=(r*a)%p;n>>=1;a=(a*a)%p;}return r;}
ll inv(ll a){return qpow(a,mod-2);}
ll inv(ll a,ll p){return qpow(a,p-2,p);}
const int N=100050;
int xx[N],yy[N],cnt[N];
int sa[N],rk[N],height[N];
char str[N];
void getSA_DA(int n,int M){
int i,j,p,*x=xx,*y=yy;
for(i=0;i<M;i++)cnt[i]=0;
for(i=0;i<n;i++)cnt[x[i]=str[i]]++;
for(i=1;i<M;i++)cnt[i]+=cnt[i-1];
for(i=n-1;i>=0;i--)sa[--cnt[x[i]]]=i;
for(j=1,p=1;p<n;j<<=1,M=p){
for(p=0,i=n-j;i<n;i++)y[p++]=i;
for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
for(i=0;i<M;i++)cnt[i]=0;
for(i=0;i<n;i++)cnt[x[y[i]]]++;
for(i=1;i<M;i++)cnt[i]+=cnt[i-1];
for(i=n-1;i>=0;i--)sa[--cnt[x[y[i]]]]=y[i];
for(swap(x,y),p=1,x[sa[0]]=0,i=1;i<n;i++)
x[sa[i]]=(y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+j]==y[sa[i]+j])?p-1:p++;
}
}
void getHeight(int n){
int i,j,k=0;
for(i=1;i<=n;i++)rk[sa[i]]=i;
for(i=0;i<n;height[rk[i++]]=k)
for(k?k--:0,j=sa[rk[i]-1];str[i+k]==str[j+k];k++);
for(i=n;i;i--)rk[i]=rk[i-1],sa[i]++;
}
int n,val[30];
ll k,sum[N];
bool ck(ll mid)
{
ll kk=0;
rep(i,1,n)
{
// 排名为i的字符串在原串中的左边界为sa[i]
int l=sa[i],r=n;
while(l<=r)
{
int m=l+r>>1;
// 以sa[i]至m的能量总和进行判断
if(sum[m]-sum[sa[i]-1]>mid)
r=m-1;
else
l=m+1;
}
// 符合条件的个数为r-sa[i]+1,减去重复计数height[i]
kk+=max(0,r-sa[i]+1-height[i]);
}
// 如果<=mid的个数>=k,则说明答案<=mid
return kk>=k;
}
void solve()
{
cin>>n>>k>>str;
repp(i,0,26)
cin>>val[i];
// 构建后缀数组
getSA_DA(n+1,128);
getHeight(n);
// 获取不同子串的数量
ll tot=n-sa[1]+1;
rep(i,2,n)
tot+=n-sa[i]+1-height[i];
if(k>tot)
{
cout<<"-1\n";
return;
}
// 预处理前缀和及二分范围
ll l=100;
rep(i,1,n)
{
l=min(l,(ll)val[str[i-1]-'a']);
sum[i]=sum[i-1]+val[str[i-1]-'a'];
}
ll r=sum[n];
// 二分答案
while(l<=r)
{
ll m=l+r>>1;
if(ck(m))
r=m-1;
else
l=m+1;
}
cout<<l<<'\n';
}
int main()
{
closeSync;
multiCase
{
solve();
}
return 0;
}