【课程笔记】中科大信息论(六)

信息推断

这部分属于信息论与统计学相结合的部分,类似于机器学习的“隐变量”推断,即通过观测到的值来推测真实的信息。相对于机器学习喜欢提出具体的推断方法,信息论更关注推断的性质是什么,最高的推断精度到哪里?

假设检验

根据观察,判别真相

在概率学中表述,就是从一堆概率分布中选择一个与观测到的随机变量最相符的

  • 问题描述

    \[\begin{aligned} &\mathcal{H}_{0}: \quad X \sim p_{0}(x) \text { ( "null") }\\ &\mathcal{H}_{1}: \quad X \sim p_{1}(x) \quad(\text { "alternative") } \end{aligned} \]

  • 指示变量\(\delta: X \mapsto\{0,1\}\),根据观测到的值\(x\)判别是来自于哪个分布

    • 确定的

      \[\begin{aligned} \delta(x) &=1 \quad \text { if } x \in X_{1} \\ &=0 \quad \text { if } x \in X \backslash X_{1}=X_{1}^{c} \end{aligned} \]

    • 随机的

      \[\tilde{\delta}(x)=P(\delta=1 \mid X=x) \]

接下来如何设计判别的标准?根据是否有先验概率的假设,分为贝叶斯or奈曼皮尔逊假设检验

贝叶斯

前提假设

  • 每个假设有先验分布

    \[\begin{aligned} \pi_{0} &=P\left(X \sim p_{0}\right) \\ \pi_{1}=1-\pi_{0} &=P\left(X \sim p_{1}\right) \end{aligned} \]

  • 判断正误后都有代价:将真实分布\(\mathcal{H}_{j}\)判断为\(\mathcal{H}_{i}\)的代价 \(C_{i,j},i,j=0,1\)

  • 贝叶斯风险(确定性判断)

    • 当真实分布为\(\mathcal{H}_{j}\)时的风险

      \[R_{j}(\delta)=C_{1, j} p_{j}\left(X_{1}\right)+C_{0, j} p_{j}\left(X_{1}^{c}\right) \]

      其中\(p_{j}\left(X_{1}\right)\)表示此时判断为1的概率

    • 进一步考虑先验概率后的风险为

      \[r(\delta)=\pi_{0} R_{0}(\delta)+\pi_{1} R_{1}(\delta) \label{1} \]

  • 贝叶斯风险(随机判断)

    • 条件风险

      \[R_{j}(\tilde{\delta})=C_{1, j} \sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{j}(x)+C_{0, j} \sum_{x \in X}[1-\tilde{\delta}(x)] p_{j}(x) \]

    • 贝叶斯风险

      \[r(\tilde{\delta})=\pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \label{2} \]

最优解法

确定性判断

核心目标是通过设计指示变量\(\delta\)来最小化贝叶斯风险

因此先把贝叶斯风险\(\eqref{1}\)展开、化简

\[\begin{aligned} r(\delta)&= \pi_{0} C_{1,0} p_{0}\left(X_{1}\right)+\pi_{0} C_{0,0} p_{0}\left(X_{1}^{c}\right) \\ & \quad+\pi_{1} C_{1,1} p_{1}\left(X_{1}\right)+\pi_{1} C_{0,1} p_{1}\left(X_{1}^{c}\right) \\ &= \pi_{0} C_{0,0}+\pi_{1} C_{0,1} \\ & \quad+\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}\left(X_{1}\right)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}\left(X_{1}\right) \\ &= \text { constant }+\sum_{x \in X_{1}}\left[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x)\right] \end{aligned} \]

其中\(p_{0}\left(X_{1}^{c}\right)=1-p_{0}\left(X_{1}\right)\),第二个等号的第一行是常数,第三个等号来源于\(p_{1}\left(X_{1}\right)=\sum_{x \in X_{1}}p_{1}(x)\)

因此,我们要做的就是改变求和范围\(X_{1}\),使得右边求和最小

由于没法改变到底负多少,因此只用让求和项里面是负的,就都拿进来,也就是满足

\[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x) \leq 0 \quad \text { if } x \in X_{1} \]

不妨假设cost的相对大小,因此得到判决区间(似然比检验\(L(x)=\frac{p_{1}(x)}{p_{0}(x)}\)

\[X_{1}=\left\{x \in X: \frac{p_{1}(x)}{p_{0}(x)} \geq \frac{\pi_{0}}{\pi_{1}} \frac{C_{1,0}-C_{0,0}}{C_{0,1}-C_{1,1}}\right\} \]

当取特殊的cost时,简化为

\[X_{1}=\left\{x \in X: \frac{p_{1}(x)}{p_{0}(x)} \geq \frac{\pi_{0}}{\pi_{1}}\right\} \]

相当于综合考虑先验概率和在这个分布中出现的概率(先验分布1出现的概率,乘上在这个分布中出现\(x\)的概率,如果这个概率乘积大的话,那么是分布1的可能性就很高)

随机判断

按照上述思路,带入\(\eqref{2}\)的结果,得到贝叶斯风险为

\[\begin{aligned} r(\tilde{\delta})&= \pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \\ &= \pi_{0} C_{0,0}+\pi_{1} C_{0,1} \\ &+\sum_{x \in X} \tilde{\delta}(x)\left[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x)\right] \end{aligned} \]

要让这个值最小化,依然是只要是中括号里是负的,都拿进来,同时\(\tilde{\delta}(x)\)只能取0或者1,也就变成了和确定性判断一样的结果

奈曼皮尔逊

既不考虑先验概率,也不假设每个判断带来的cost,只要将判错的概率最小化就行了

具体而言,分别由虚警和漏检两种错误

  • \(\mathcal{H}_{0}\) decided as \(\mathcal{H}_{1}\), its probability is denoted as \(P_{\mathrm{F}}(\tilde{\delta})\).
  • \(\mathcal{H}_{1}\) decided as \(\mathcal{H}_{0}\), its probability is denoted as \(P_{\mathrm{M}}(\tilde{\delta})\); 或者研究检测效率\(P_{\mathrm{D}}(\tilde{\delta})=1-P_{\mathrm{M}}(\tilde{\delta})\)

由于不可能两个都很小,因此通常保证一个指标,优化另一个指标,也就是

\[\begin{aligned} & \max _{\tilde{\delta}} P_{\mathrm{D}}(\tilde{\delta}) \\ \text { s.t. } \quad & P_{\mathrm{F}}(\tilde{\delta}) \leq \alpha \end{aligned} \]

虚警概率的约束又叫显著性水平(也就是说没有瞎jb报警)(生命科学里取0.05)

上述优化问题可以转换为指示变量与概率分布的内积形式

\[\begin{aligned} P_{\mathrm{F}}(\tilde{\delta})&=p_{0}(\delta=1)\\ &=\sum_{x \in X} P(\delta=1 \mid X=x) p_{0}(x)\\ &=\sum_{x \in X} \tilde{\delta}(x) p_{0}(x) .\\ P_{\mathrm{D}}(\tilde{\delta})&=p_{1}(\delta=1)\\ &=\sum_{x \in X} P(\delta=1 \mid X=x) p_{1}(x)\\ &=\sum_{x \in X} \tilde{\delta}(x) p_{1}(x) . \end{aligned} \]

最优解

Neyman-Pearson Lemma

在奈曼皮尔逊检验的准则下,最优判决的形式为

\[\begin{aligned} \tilde{\delta}(x) &=1 \text { if } L(x)>\eta \\ &=0 \text { if } L(x)<\eta \\ &=\gamma(x) \text { if } L(x)=\eta \end{aligned}\label{3} \]

其中\(\eta \geq 0\)需要满足\(P_{\mathrm{F}}(\tilde{\delta})=\alpha\)\(\gamma(x) \in[0,1]\)可以设置为一个常数

证明:

证明思路:最优的含义:如果有其他的判决方法\(\tilde{\delta}^{\prime}\)满足虚警要求,那它的检测效率不能再提高,也就是要满足\(P_{\mathrm{D}}(\tilde{\delta}) \geq P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right)\)

做差有

\[\begin{aligned} P_{\mathrm{D}}(\tilde{\delta})-P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right) &=\sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{1}(x)-\sum_{x \in \mathcal{X}} \tilde{\delta}^{\prime}(x) p_{1}(x) \\ &=\sum_{x \in \mathcal{X}}\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] p_{1}(x) . \end{aligned}\label{4} \]

对于\(\eqref{3}\)而言,有

\(p_{1}(x)>\eta p_{0}(x), \tilde{\delta}(x)=1, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \geq 0\);

\(p_{1}(x)<\eta p_{0}(x), \tilde{\delta}(x)=0, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \leq 0\)

整理后就得到不等式

\[\left[p_{1}(x)-\eta p_{0}(x)\right]\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] \geq 0, \quad \forall x \in X \]

替换\(\eqref{4}\)中的式子,得到

\[\begin{aligned} P_{\mathrm{D}}(\tilde{\delta})-P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right) & \geq \eta \sum_{x \in X}\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] p_{0}(x) \\ &=\eta[\underbrace{P_{\mathrm{F}}(\tilde{\delta})}_{=\alpha}-\underbrace{P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)}_{\leq \alpha}] \geq 0 \end{aligned} \]

因此这个形式是最优的。

  • 对于any other最优的解释,这里的any other一定还是有一些性质被限制住的,比如这里一个是\(\tilde{\delta}(x)\in [0,1]\),另一个是虚警概率\(P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)\le\alpha\)

意义

  • 还是一个巧妙的构造性证明,
  • 不管是贝叶斯还是奈曼皮尔逊,核心都是似然比
posted @ 2022-04-09 10:00  木坑  阅读(321)  评论(0编辑  收藏  举报