【课程笔记】中科大信息论(六)
信息推断
这部分属于信息论与统计学相结合的部分,类似于机器学习的“隐变量”推断,即通过观测到的值来推测真实的信息。相对于机器学习喜欢提出具体的推断方法,信息论更关注推断的性质是什么,最高的推断精度到哪里?
假设检验
根据观察,判别真相
在概率学中表述,就是从一堆概率分布中选择一个与观测到的随机变量最相符的
-
问题描述
\[\begin{aligned} &\mathcal{H}_{0}: \quad X \sim p_{0}(x) \text { ( "null") }\\ &\mathcal{H}_{1}: \quad X \sim p_{1}(x) \quad(\text { "alternative") } \end{aligned} \] -
指示变量\(\delta: X \mapsto\{0,1\}\),根据观测到的值\(x\)判别是来自于哪个分布
-
确定的
\[\begin{aligned} \delta(x) &=1 \quad \text { if } x \in X_{1} \\ &=0 \quad \text { if } x \in X \backslash X_{1}=X_{1}^{c} \end{aligned} \] -
随机的
\[\tilde{\delta}(x)=P(\delta=1 \mid X=x) \]
-
接下来如何设计判别的标准?根据是否有先验概率的假设,分为贝叶斯or奈曼皮尔逊假设检验
贝叶斯
前提假设
-
每个假设有先验分布
\[\begin{aligned} \pi_{0} &=P\left(X \sim p_{0}\right) \\ \pi_{1}=1-\pi_{0} &=P\left(X \sim p_{1}\right) \end{aligned} \] -
判断正误后都有代价:将真实分布\(\mathcal{H}_{j}\)判断为\(\mathcal{H}_{i}\)的代价 \(C_{i,j},i,j=0,1\)
-
贝叶斯风险(确定性判断)
-
当真实分布为\(\mathcal{H}_{j}\)时的风险
\[R_{j}(\delta)=C_{1, j} p_{j}\left(X_{1}\right)+C_{0, j} p_{j}\left(X_{1}^{c}\right) \]其中\(p_{j}\left(X_{1}\right)\)表示此时判断为1的概率
-
进一步考虑先验概率后的风险为
\[r(\delta)=\pi_{0} R_{0}(\delta)+\pi_{1} R_{1}(\delta) \label{1} \]
-
-
贝叶斯风险(随机判断)
-
条件风险
\[R_{j}(\tilde{\delta})=C_{1, j} \sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{j}(x)+C_{0, j} \sum_{x \in X}[1-\tilde{\delta}(x)] p_{j}(x) \] -
贝叶斯风险
\[r(\tilde{\delta})=\pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \label{2} \]
-
最优解法
确定性判断
核心目标是通过设计指示变量\(\delta\)来最小化贝叶斯风险
因此先把贝叶斯风险\(\eqref{1}\)展开、化简
其中\(p_{0}\left(X_{1}^{c}\right)=1-p_{0}\left(X_{1}\right)\),第二个等号的第一行是常数,第三个等号来源于\(p_{1}\left(X_{1}\right)=\sum_{x \in X_{1}}p_{1}(x)\)
因此,我们要做的就是改变求和范围\(X_{1}\),使得右边求和最小
由于没法改变到底负多少,因此只用让求和项里面是负的,就都拿进来,也就是满足
不妨假设cost的相对大小,因此得到判决区间(似然比检验\(L(x)=\frac{p_{1}(x)}{p_{0}(x)}\))
当取特殊的cost时,简化为
相当于综合考虑先验概率和在这个分布中出现的概率(先验分布1出现的概率,乘上在这个分布中出现\(x\)的概率,如果这个概率乘积大的话,那么是分布1的可能性就很高)
随机判断
按照上述思路,带入\(\eqref{2}\)的结果,得到贝叶斯风险为
要让这个值最小化,依然是只要是中括号里是负的,都拿进来,同时\(\tilde{\delta}(x)\)只能取0或者1,也就变成了和确定性判断一样的结果。
奈曼皮尔逊
既不考虑先验概率,也不假设每个判断带来的cost,只要将判错的概率最小化就行了。
具体而言,分别由虚警和漏检两种错误
- \(\mathcal{H}_{0}\) decided as \(\mathcal{H}_{1}\), its probability is denoted as \(P_{\mathrm{F}}(\tilde{\delta})\).
- \(\mathcal{H}_{1}\) decided as \(\mathcal{H}_{0}\), its probability is denoted as \(P_{\mathrm{M}}(\tilde{\delta})\); 或者研究检测效率\(P_{\mathrm{D}}(\tilde{\delta})=1-P_{\mathrm{M}}(\tilde{\delta})\)
由于不可能两个都很小,因此通常保证一个指标,优化另一个指标,也就是
虚警概率的约束又叫显著性水平(也就是说没有瞎jb报警)(生命科学里取0.05)
上述优化问题可以转换为指示变量与概率分布的内积形式
最优解
Neyman-Pearson Lemma
在奈曼皮尔逊检验的准则下,最优判决的形式为
其中\(\eta \geq 0\)需要满足\(P_{\mathrm{F}}(\tilde{\delta})=\alpha\),\(\gamma(x) \in[0,1]\)可以设置为一个常数
证明:
证明思路:最优的含义:如果有其他的判决方法\(\tilde{\delta}^{\prime}\)也满足虚警要求,那它的检测效率不能再提高,也就是要满足\(P_{\mathrm{D}}(\tilde{\delta}) \geq P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right)\)
做差有
对于\(\eqref{3}\)而言,有
当 \(p_{1}(x)>\eta p_{0}(x), \tilde{\delta}(x)=1, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \geq 0\);
当\(p_{1}(x)<\eta p_{0}(x), \tilde{\delta}(x)=0, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \leq 0\)
整理后就得到不等式
替换\(\eqref{4}\)中的式子,得到
因此这个形式是最优的。
- 对于any other最优的解释,这里的any other一定还是有一些性质被限制住的,比如这里一个是\(\tilde{\delta}(x)\in [0,1]\),另一个是虚警概率\(P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)\le\alpha\)
意义
- 还是一个巧妙的构造性证明,
- 不管是贝叶斯还是奈曼皮尔逊,核心都是似然比