本文是根据 Game Theory An Introduction (Steven Tadelis) 一书第二章整理的学习笔记。
离散结果(Discrete outcomes)
为了形象表示一个决策过程中的随机因素,一种常用的技巧是引入决策树来进行分析:
如上图所示,g 和 s 表示策略集 A={g, s} 中的两个策略,结果用 \(X\)={0, 10} 表示,0,75, 0.25 分别表示行动 g 结果为10的概率为0.75,结果为0的概率为0.25;类似地,行动 s 结果为10的概率为0.5,结果为0的概率为0.5。
一个简单的投机的结果集合为 \(X=\{x_1, x_2, \dots, x_n\}\) ,结果对应的概率分布为 \(p = (p(x_1), p(x_2), \dots, p(x_n))\),其中 \(p(x_k) \geq 0\) 表示 \(x_k\) 出现的概率,且满足 \(\sum_{k=1}^np(x_k)=1\)。
决策过程的随机性可以用行动集合的条件概率来表示,也即给定一个策略 \(a \in A\),对应结果为 \(x_k\in X\) 的条件概率可以用 \(p(x_k|a)\) 来表示,其中 \(p(x_k|a) \geq 0\),且 \(\sum_{k=1}^np(x_k|a) = 1\) 对于任意的 \(a \in A\) 都成立。
连续结果(Continus outcomes)
当一个决策问题的结果函数是离散情形时,决策树可以很形象的表示出决策过程的细节,然而当结果函数是连续情形时,这时不能用决策树来表示决策的过程了。针对结果函数是连续情况,我们有以下定义:
一个简单的投机中,策略为 \(a \in A\),对应的结果为 \(x \in X=[\underline{x}, \overline{x}]\),结果对应的概率分布由累积分布函数 \(F : X \rightarrow [0, 1]\) 给出,其中 \(F(\hat{x}|a) = \rm Pr\{x \leq \hat{x}|a\}\) 表示在策略为 \(a\) 的条件下结果小于或等于 \(\hat{x}\) 时的概率。
期望报酬(Expected payoff)
离散情形下的期望收益:
决策者的结果在行动 \(a\) 下的结果用集合 \(X=\{x_1, x_2, \dots, x_n\}\) 表示,其中 \(X\) 发生的概率分布为 \(p=\{p_1, p_2, \dots, p_n\}\),对应 \(p_k={\rm Pr}\{x=x_k|a\}\)。 用 \(u(x)\) 表示参与者在本次决策中的收益函数,那么参与者在概率分布为 \(p\) 时的期望收益函数为:
\(v(a)=E[u(x)|p]=\sum_{k=1}^np_ku(x_k)=p_1u(x_1)+p_2u(x_2)+\dots+p_nu(x_n)\).
连续情形下的期望收益
决策者的结果用区间 \(X=[\underline{x}, \overline{x}]\) 来表示,其中结果 \(x\) 满足的累积分布函数为 \(F(x)\),分布密度用 \(f(x)\) 表示,那么决策者的期望收益函数为:
\(v(a)=E[u(x)]=\int_{\underline{x}}^{\overline{x}}u(x)f(x)dx\).
一个具有不确定性因素的决策问题,其理性决策定义为:某个决策 \(a^*\) 被称为理性决策,如果对于所有的决策 \(a \in A\),满足 \(v(a^*)=E[u(x)|a^*] \geq E[u(x)|a] = v(a)\)。
决策过程的时间因素
序贯决策
在某些决策问题中,决策不是一次就完成,而是随着时间的推移,在已有决策的基础上需要作出新的决策,这种决策问题称为序贯决策(Sequential decision)。
序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法,也称动态决策法。多阶段决策的每一个阶段都需作出决策,从而使整个过程达到最优。多阶段的选取不是任意决定的,它依赖于当前面临的状态,不给以后的发展产生影响,从而影响整个过程的活动。当各个阶段的决策确定后,就组成了问题的决策序列或策略,称为决策集合。
为了求解这类决策问题的最优策略,一般采用动态规划 (dynamic programming) 或者 倒推法 (backward induction)。
时间对决策的影响
在一些多阶段决策问题中,某个阶段的决策产生的收益是随着时间变化的。决策收益的折扣影响是指随着时间的推移,某个决策产生的收益是关于时间的一个折扣。假设某个时刻 \(t\) 的决策结果为 \(x_t\) ,该决策的收益用 \(u(x_t)\) 表示,折扣因子记为 \(\delta\),则在 \(T\) 时刻该决策的收益经过打折后变为 \(\delta^{T-t}u(x_t)\),那么在 \([0, T]\) 内一系列的决策结果 \(X=\{x_1, x_2, \dots, x_T\}\) 对应的总收益函数为: