BZOJ 1076 奖励关(状压期望DP)
当前得分期望=(上一轮得分期望+这一轮得分)/m
dp[i,j]:第i轮拿的物品方案为j的最优得分期望
如果我们正着去做,会出现从不合法状态(比如前i个根本无法达到j这种方案),所以从后向前推
如果当前方案j里具备了取k这个物品的条件
那么dp[i,j]+=max{dp[i+1,j],dp[i+1,j or 1<<(k−1)]+x[k]}
否则dp[i,j]+=dp[i+1,j]
#include<cstdio> #include<iostream> using namespace std; double F[101][65536]; int N,K,t; int v[20],d[20],p[20]; int main() { for(int i=1;i<=16;i++)p[i]=1<<(i-1); scanf("%d%d",&N,&K); for(int i=1;i<=K;i++) { scanf("%d%d",&v[i],&t); while(t) { d[i]+=p[t]; scanf("%d",&t); } } for(int i=N;i;i--) for(int j=0;j<=p[K+1]-1;j++) { for(int k=1;k<=K;k++) if((d[k]&j)==d[k]) F[i][j]+=max(F[i+1][j],F[i+1][j|p[k]]+v[k]); else F[i][j]+=F[i+1][j]; F[i][j]/=K; } printf("%.6lf",F[1][0]); return 0; }