【概率DP】 ZOJ 3329 One Person Game

通道

题意:有三个骰子,分别有k1,k2,k3个面。每次掷骰子,如果三个面分别为a,b,c则分数置0,否则加上三个骰子的分数之和。当分数大于n时结束。求游戏的期望步数。初始分数为0

思路:

假设dp[i]表示拥有分数i到游戏结束的期望步数

(1):dp[i]=SUM(p[k]*dp[i+k])+p[0]*dp[0]+1;//p[k]表示增加分数为k的概率,p[0]表示分数变为0的概率
假定
(2):dp[i]=A[i]*dp[0]+B[i];

(3):dp[i+k]=A[i+k]*dp[0]+B[i+k];
将(3)代入(1)得:
(4):dp[i]=(SUM(p[k]*A[i+k])+p[0])*dp[0]+SUM(p[k]*B[i+k])+1;
将4与2做比较得:
A[i]=(SUM(p[k]*A[i+k])+p[0]);
B[i]=SUM(p[k]*B[i+k])+1;
当i+k>n时A[i+k]=B[i+k]=0可知
所以dp[0]=B[0]/(1-A[0])可求出

代码:

#include <cstdio>
#include <cstring>
#include <algorithm>

using namespace std;

typedef long long ll;

template <class T>
inline bool rd(T &ret) {
    char c; int sgn;
    if(c = getchar() , c == EOF) return false;
    while(c != '-' && (c < '0' || c > '9')) c = getchar();
    sgn = (c == '-') ? -1 : 1;
    ret = (c == '-') ? 0 : (c - '0');
    while(c = getchar(), c >= '0' && c <= '9') ret = ret * 10 + (c - '0');
    ret *= sgn;
    return true;
}

const int MAX=500+10;  
int n,k1,k2,k3,a,b,c;  
double p[20],A[MAX+10],B[MAX+10];  
  
int main(){  
    int t;  
    scanf("%d",&t);  
    while(t--){  
        memset(p,0,sizeof p);  
        scanf("%d%d%d%d%d%d%d",&n,&k1,&k2,&k3,&a,&b,&c);  
        p[0]=1.0/(k1*k2*k3);  
        for(int i=1;i<=k1;++i){  
            for(int j=1;j<=k2;++j){  
                for(int k=1;k<=k3;++k){  
                    p[i+j+k]+=p[0]; 
                }  
            }  
        }  
        p[a+b+c]-=p[0];  
        memset(A,0,sizeof A);  
        memset(B,0,sizeof B);  
        for(int i=n;i>=0;--i){ 
            A[i]=p[0],B[i]=1; 
            for(int k=3;k<=k1+k2+k3;++k){ 
                A[i]+=p[k]*A[i+k]; 
                B[i]+=p[k]*B[i+k]; 
            } 
        } 
        printf("%.15f\n",B[0]/(1-A[0]));  
    }  
    return 0;  
}  
View Code

 

 

总结:

  1. 总结下这类概率DP: 
  2. 既DP[i]可能由DP[i+k]和DP[i+j]需要求的比如DP[0]决定 
  3. 相当于概率一直递推下去会回到原点  
  4. 比如 
  5. (1):DP[i]=a*DP[i+k]+b*DP[0]+d*DP[i+j]+c;  
  6. 但是DP[i+k]和DP[0]都是未知 
  7. 这时候根据DP[i]的方程式假设一个方程式: 
  8. 比如: 
  9. (2):DP[i]=A[i]*DP[i+k]+B[i]*DP[0]+C[i]; 
  10. 因为要求DP[0],所以当i=0的时候但是A[0],B[0],C[0]未知 
  11. 对比(1)和(2)的差别  
  12. 这时候对比(1)和(2)发现两者之间的差别在于DP[i+j] 
  13. 所以根据(2)求DP[i+j]然后代入(1)消除然后对比(2)就可以得到A[i],B[i],C[i] 
  14. 然后视具体情况根据A[i],B[i],C[i]求得A[0],B[0],C[0]继而求DP[0] 
posted @ 2015-08-12 14:07  mithrilhan  阅读(198)  评论(0编辑  收藏  举报