bzoj 1076 状态压缩最优期望

题意:

你正在玩你最喜欢的电子游戏，并且刚刚进入一个奖励关。在这个奖励关里，系统将依次随机抛出k次宝物，每次你都可以选择吃或者不吃（必须在抛出下一个宝物之前做出选择，且现在决定不吃的宝物以后也不能再吃）。宝物一共有n种，系统每次抛出这n种宝物的概率都相同且相互独立。也就是说，即使前k-1次系统都抛出宝物1（这种情况是有可能出现的，尽管概率非常小），第k次抛出各个宝物的概率依然均为1/n。获取第i种宝物将得到Pi分，但并不是每种宝物都是可以随意获取的。第i种宝物有一个前提宝物集合Si。只有当Si中所有宝物都至少吃过一次，才能吃第i 种宝物（如果系统抛出了一个目前不能吃的宝物，相当于白白的损失了一次机会）。注意，Pi可以是负数，但如果它是很多高分宝物的前提，损失短期利益而吃掉这个负分宝物将获得更大的长期利益。假设你采取最优策略，平均情况你一共能在奖励关得到多少分值？

dp[i][s] 还剩i次掉落机会,前k-i次已经选择了s的物品,那么接下来最优期望得多少分.

有种倒推的感觉,状态中保存了已经做的决策对该后续决策有影响的信息,相当与提前假设,然后根据未来的不同情况选择当前的最有决策.

 1 /**************************************************************
 2     Problem: 1076
 3     User: idy002
 4     Language: C++
 5     Result: Accepted
 6     Time:1144 ms
 7     Memory:26660 kb
 8 ****************************************************************/
 9  
10 #include <cstdio>
11 #define max(a,b) ((a)>(b)?(a):(b))
12 #define K 101
13 #define N 15
14  
15 int n, k;
16 int a[N], r[N], bound;
17 double dp[K][1<<N];
18  
19 int main() {
20     scanf( "%d%d", &k, &n );
21     for( int i=0,p; i<n; i++ ) {
22         scanf( "%d", a+i );
23         while(1) {
24             scanf( "%d", &p );
25             if( p==0 ) break;
26             r[i] |= 1<<(p-1);
27         }
28     }
29     bound = (1<<n)-1;
30     for( int i=1; i<=k; i++ ) {
31         for( int s=0; s<=bound; s++ ) {
32             dp[i][s] = 0.0;
33             for( int j=0; j<n; j++ ) {
34                 if( (s & r[j]) == r[j] ) {
35                     double v1 = a[j]+dp[i-1][s|(1<<j)];
36                     double v2 = dp[i-1][s];
37                     dp[i][s] += max( v1, v2 );
38                 } else {
39                     dp[i][s] += dp[i-1][s];
40                 }
41             }
42             dp[i][s] /= n;
43         }
44     }
45     printf( "%.6lf\n", dp[k][0] );
46 }

View Code

posted @ 2015-06-16 17:11 idy002 阅读(269) 评论(0) 收藏举报

刷新页面返回顶部