1.摘抄1-老外的一些解释
https://stats.stackexchange.com/questions/305078/how-to-compute-equation-1-68-of-bishops-book
I was treating the problem as having four random variables x , t , D , w x , t , D , w where D = ( X , T ) D = ( X , T ) then I only obtain this:
P ( t , x , D ) = ∫ P ( t , x , D , w ) d w P ( t , x , D ) = ∫ P ( t , x , D , w ) d w
P ( t | x , D ) P ( x , D ) = ∫ P ( t | x , D , w ) P ( x , D , w ) d w P ( t | x , D ) P ( x , D ) = ∫ P ( t | x , D , w ) P ( x , D , w ) d w
P ( t | x , D ) = ∫ P ( t | x , D , w ) P ( w | x , D ) d w P ( t | x , D ) = ∫ P ( t | x , D , w ) P ( w | x , D ) d w
The book sneakily invoked the concept of "conditional independence".
本书偷偷摸摸的提到了"条件独立的概念"
Suppose we have variables A , A , B , B , and C , C , and that A A and B B are conditionally independent given C . C . This means that P ( A ∣ B , C ) = P ( A ∣ C ) . P ( A ∣ B , C ) = P ( A ∣ C ) . That is, if C C is observed, then A A is independent of B . B . However, that independence is conditional, so it's still true that P ( A ∣ B ) ≠ P ( A ) P ( A ∣ B ) ≠ P ( A ) in general.
假 设 我 们 有 A , B , C 三 个 变 量 , 并 且 A , B 在 给 定 C 的 条 件 下 是 独 立 的 , 这 就 意 味 着 P ( A ∣ B , C ) = P ( A ∣ C ) , 那 么 如 果 C 被 观 测 到 , A , B 就 是 独 立 的 ( 貌 似 是 概 率 图 模 型 的 概 念 ) , 然 而 这 种 独 立 性 是 带 条 件 的 , 所 以 并 不 意 味 着 P ( A ∣ B ) ≠ P ( A ) 成 立 假 设 我 们 有 A , B , C 三 个 变 量 , 并 且 A , B 在 给 定 C 的 条 件 下 是 独 立 的 , 这 就 意 味 着 P ( A ∣ B , C ) = P ( A ∣ C ) , 那 么 如 果 C 被 观 测 到 , A , B 就 是 独 立 的 ( 貌 似 是 概 率 图 模 型 的 概 念 ) , 然 而 这 种 独 立 性 是 带 条 件 的 , 所 以 并 不 意 味 着 P ( A ∣ B ) ≠ P ( A ) 成 立
In this case, t t is conditionally independent of D D given w . w . The reason for this is that t t solely depends on w w and x , x , but if you don't know w w then D D gives you a hint to the value of w . w . However, if you do know w w then D D is no longer useful for determining the value of t . t . This explains why D D was omitted from P ( t ∣ x , w , D ) P ( t ∣ x , w , D ) but not from P ( t ∣ x , D ) . P ( t ∣ x , D ) .
基 于 上 述 情 况 , t 在 w 给 定 的 情 况 下 是 和 D 独 立 的 , 理 由 是 t 仅 仅 依 赖 于 w 和 x , 但 是 如 果 你 不 知 道 w , 那 么 D 会 给 w 一 点 小 提 示 。 然 而 如 果 你 知 道 w , 那 么 推 导 t 就 不 再 需 要 D 了 , 这 就 解 释 了 D 为 什 么 能 够 从 P ( t ∣ x , w , D ) 中 被 忽 略 掉 , 变 成 P ( t ∣ x , D ) 基 于 上 述 情 况 , t 在 w 给 定 的 情 况 下 是 和 D 独 立 的 , 理 由 是 t 仅 仅 依 赖 于 w 和 x , 但 是 如 果 你 不 知 道 w , 那 么 D 会 给 w 一 点 小 提 示 。 然 而 如 果 你 知 道 w , 那 么 推 导 t 就 不 再 需 要 D 了 , 这 就 解 释 了 D 为 什 么 能 够 从 P ( t ∣ x , w , D ) 中 被 忽 略 掉 , 变 成 P ( t ∣ x , D )
Similarly, w w is entirely independent of x x so P ( w ∣ x , D ) = P ( w ∣ D ) . P ( w ∣ x , D ) = P ( w ∣ D ) .
2.摘抄2-国人1
https://nbviewer.org/github/hschen0712/machine-learning-notes/blob/master/PRML/Chap1-Introduction/1.2-probability-theory.ipynb
贝叶斯曲线拟合
前面介绍的MLE和MAP都属于点估计,这一节将介绍一种更完全的贝叶斯方法。回顾曲线拟合的目标,我们希望为给定的输入^ x x ^ 预测其对应的输出^ t t ^ 。这里假设参数α α 和β β 已知,于是可以省略w w 的后验概率中的参数,写为p ( w | x , t ) p ( w | x , t ) 。通过对下式右端关于w w 积分,我们可以得到t t 的后验预测分布(posterior predictive distribution): p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w 这个公式是我读这本书遇到的第一道坎,貌似很多人也在这个公式上卡了很久。我说一下我对这个公式的理解:
第一种理解:我们知道在贝叶斯中数据是已知的,只有参数w w 是不确定的,因此式中x , x , t x , x , t 都是确定的,为了直观我们可以把已知的都省略,于是原式变为 p ( t ) = ∫ p ( t | w ) p ( w ) d w = ∫ p ( t , w ) d w p ( t ) = ∫ p ( t | w ) p ( w ) d w = ∫ p ( t , w ) d w 这就很好理解了,就是对w w 做marginalization(运用概率论的乘法公式和加法公式,连续的情况下求和变为积分)。
第二种理解:概率图模型,需要用到D-separation理论(D-Separation是一种用来判断变量是否条件独立的图形化方法)。以下举个D-separation最简单的例子,更多的理论知识请参考PRML第8章
我们要确定上图中a a 和b b 的关系,则可以分为两种情况来讨论
首先依据链式法则,我们写出该图模型的联合概率 p ( a , b , c ) = p ( c ) p ( a | c ) p ( b | c ) p ( a , b , c ) = p ( c ) p ( a | c ) p ( b | c ) 1)如果随机变量c c 已经被观测,则a a 与b b 条件独立,即p ( a , b | c ) = p ( a | c ) p ( b | c ) p ( a , b | c ) = p ( a | c ) p ( b | c )
证明过程如下: p ( a , b | c ) = p ( a , b , c ) p ( c ) = p ( c ) p ( a | c ) p ( b | c ) p ( c ) = p ( a | c ) p ( b | c ) p ( a , b | c ) = p ( a , b , c ) p ( c ) = p ( c ) p ( a | c ) p ( b | c ) p ( c ) = p ( a | c ) p ( b | c ) 同理,我们还能证明p ( b | a , c ) = p ( b | c ) p ( b | a , c ) = p ( b | c ) p ( b | a , c ) = p ( a , b , c ) p ( a , c ) = p ( c ) p ( a | c ) p ( b | c ) p ( c ) p ( a | c ) = p ( b | c ) p ( b | a , c ) = p ( a , b , c ) p ( a , c ) = p ( c ) p ( a | c ) p ( b | c ) p ( c ) p ( a | c ) = p ( b | c ) 2)如果随机变量c c 未被观测,通过对p ( a , b , c ) p ( a , b , c ) 关于c c 积分我们获得a a 和b b 的联合概率 p ( a , b ) = ∑ c = p ( c ) p ( a | c ) p ( b | c ) p ( a , b ) = ∑ c = p ( c ) p ( a | c ) p ( b | c ) 通常情况下,p ( a , b ) p ( a , b ) 是不等于p ( a ) p ( b ) p ( a ) p ( b ) 的,因此a a 和b b 相互不独立
接下来我们讨论回归模型的概率图模型:
接下来我们来证明原式成立: p ( t | x , x , t ) = p ( t , x , x , t ) p ( x , x , t ) & = ∫ p ( t , x , x , t , w ) p ( x , x , t ) d w & = ∫ p ( t , x , x , t , w ) p ( x , x , t , w ) p ( x , x , t , w ) p ( x , x , t ) d w & = ∫ p ( t | x , x , t , w ) p ( w | x , x , t ) d w p ( t | x , x , t ) = p ( t , x , x , t ) p ( x , x , t ) & = ∫ p ( t , x , x , t , w ) p ( x , x , t ) d w & = ∫ p ( t , x , x , t , w ) p ( x , x , t , w ) p ( x , x , t , w ) p ( x , x , t ) d w & = ∫ p ( t | x , x , t , w ) p ( w | x , x , t ) d w 根据图模型的D-separation理论,w w 被观测的条件下,上图中x x 到t t (在图中是^ t t ^ )的通路被阻断,因此t t 与x x 及t t 相互独立,则 p ( t | x , x , t , w ) = p ( t | x , w ) p ( t | x , x , t , w ) = p ( t | x , w ) 接着我们考察概率p ( w | x , x , t ) p ( w | x , x , t ) ,由于t t 尚未被观测,根据图模型D-separation理论,w w 和x x 应该是独立的,此外由于t t 已经被观测,那么w w 与x x 条件不独立。于是 p ( w | x , x , t ) = p ( w | x , t ) p ( w | x , x , t ) = p ( w | x , t ) 综上,我们知道 p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w
3.摘抄3-国人2
https://www.codetd.com/article/10631869
这篇写的很好,很工整,结合上了上面两篇
在第一章的1.2.6节,有公式(1.68)
\[ p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w \] \[ p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w \]
这 个 公 式 实 际 上 是 在 贝 叶 斯 框 架 下 对 回 归 \( t = y ( x , w ) 这 个 公 式 实 际 上 是 在 贝 叶 斯 框 架 下 对 回 归 \( t = y ( x , w ) 进行推断,即给出了新的x x (注意粗体的区别,x x 是测试集的样本,这部分信息是已知的)下,我们对t的后验概率进行推断。\)
从读MLAPP的时候就对这个公式有点疑惑,虽然书中一笔带过,但是小白的我决定自己推导一番:
\[ p ( t | x , x , t ) = ∫ p ( t , w | x , x , t ) d w \] \[ p ( t | x , x , t ) = ∫ p ( t , w | x , x , t ) d w \]
而
\[ p ( t , w | x , x , t ) = p ( t , w , x , x , t ) p ( x , x , t ) \] \[ p ( t | x , w ) p ( w | x , t ) = p ( t , x , w ) p ( w , x , t ) p ( x , w ) p ( x , t ) \] \[ p ( t , w | x , x , t ) = p ( t , w , x , x , t ) p ( x , x , t ) \] \[ p ( t | x , w ) p ( w | x , t ) = p ( t , x , w ) p ( w , x , t ) p ( x , w ) p ( x , t ) \]
所以目标是证明
\[ p ( t , w , x , x , t ) p ( x , x , t ) = p ( t , x , w ) p ( w , x , t ) p ( x , w ) p ( x , t ) \] \[ p ( t , w , x , x , t ) p ( x , x , t ) = p ( t , x , w ) p ( w , x , t ) p ( x , w ) p ( x , t ) \]
是不是等价性没有那么self-evident =皿=
其实这个地方有用到几个条件独立性。
\( p ( t , w | x , x , t ) = p ( t | x , x , t ) p ( w | x , x , t ) \( p ( t , w | x , x , t ) = p ( t | x , x , t ) p ( w | x , x , t )
这个理解起来就是说,在给定( x , x , t ) ( x , x , t ) 下,t t 和w w 是条件独立的。\)
\( t \( t 与w w 之间的联系是由( x , x , t ) ( x , x , t ) 给出的,所以当中间连接他们的纽带给定的时候,这两个随机变量是条件独立的。\)
显 然 \( p ( w | x , x , t ) = p ( w | x , t ) 显 然 \( p ( w | x , x , t ) = p ( w | x , t ) ,因为x x 是新的样本,无法对w的后验概率造成影响。\)
\( p ( t | x , x , t ) = p ( t | x , w ) \( p ( t | x , x , t ) = p ( t | x , w ) .因为( x , t ) ( x , t ) 影响t的路径是通过影响w产生的,所以这两个等价。\)
于是,我们得到
\[ p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w \] \[ p ( t | x , x , t ) = ∫ p ( t | x , w ) p ( w | x , t ) d w \]
在1.5.1节,给出了错误分类率的公式
\[ p ( mistake ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x \] \[ p ( mistake ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x \]
书中直接给出结论,要使得错误分类率最小,应该分给后验概率(P(C_k|x))最大的类别中。
推导过程如下:
对 于 最 优 的 \( R 1 , R 2 对 于 最 优 的 \( R 1 , R 2 ,只要满足它的犯错概率小于其他所有的决策区域R ′ 1 , R ′ 2 R 1 ′ , R 2 ′ 下的犯错概率即可。\)
\[ p ( mistake ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x \] \[ p ′ ( mistake ) = p ( x ∈ R ′ 1 , C 2 ) + p ( x ∈ R ′ 2 , C 1 ) = ∫ R ′ 1 p ( x , C 2 ) d x + ∫ R ′ 2 p ( x , C 1 ) d x \] \[ p ( mistake ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x \] \[ p ′ ( mistake ) = p ( x ∈ R 1 ′ , C 2 ) + p ( x ∈ R 2 ′ , C 1 ) = ∫ R 1 ′ p ( x , C 2 ) d x + ∫ R 2 ′ p ( x , C 1 ) d x \]
对两个做差,得到
\[ p ( m i s t a k e ) − p ′ ( m i s t a k e ) = ∫ R 1 ∩ R ′ 2 ( p ( x , C 2 ) − p ( x , C 1 ) ) d x + ∫ R 2 ∩ R ′ 1 ( p ( x , C 1 ) − p ( x , C 2 ) ) d x \] \[ p ( m i s t a k e ) − p ′ ( m i s t a k e ) = ∫ R 1 ∩ R 2 ′ ( p ( x , C 2 ) − p ( x , C 1 ) ) d x + ∫ R 2 ∩ R 1 ′ ( p ( x , C 1 ) − p ( x , C 2 ) ) d x \]
那么我们只需要
\( p ( x , C 2 ) − p ( x , C 1 ) ≤ 0 \( p ( x , C 2 ) − p ( x , C 1 ) ≤ 0 在任意R 1 ∩ R ′ 2 R 1 ∩ R 2 ′ 上成立。\)
\( p ( x , C 1 ) − p ( x , C 2 ) ≤ 0 \( p ( x , C 1 ) − p ( x , C 2 ) ≤ 0 在任意R 2 ∩ R ′ 1 R 2 ∩ R 1 ′ 上成立。\)
由 于 由 于 p\left(\boldsymbol{x}\right) 是 相 同 的 , 上 述 两 个 公 式 等 价 于 : 是 相 同 的 , 上 述 两 个 公 式 等 价 于 :
\( p ( x | C 2 ) − p ( x | C 1 ) ≤ 0 \( p ( x | C 2 ) − p ( x | C 1 ) ≤ 0 在任意R 1 ∩ R ′ 2 R 1 ∩ R 2 ′ 上成立。\)
\( p ( x | C 1 ) − p ( x | C 2 ) ≤ 0 \( p ( x | C 1 ) − p ( x | C 2 ) ≤ 0 在任意R 2 ∩ R ′ 1 R 2 ∩ R 1 ′ 上成立。\)
而 任 意 \( R 1 ∩ R ′ 2 而 任 意 \( R 1 ∩ R 2 ′ 其实就是R 1 R 1 ,任意R 2 ∩ R ′ 1 R 2 ∩ R 1 ′ 其实就是R 2 R 2 \)
所 以 最 优 的 分 配 规 则 就 是 , 如 果 \( p ( x | C 2 ) ≤ p ( x | C 1 ) 所 以 最 优 的 分 配 规 则 就 是 , 如 果 \( p ( x | C 2 ) ≤ p ( x | C 1 ) 就分配到第一类上,如果p ( x | C 1 ) ≤ p ( x | C 2 ) p ( x | C 1 ) ≤ p ( x | C 2 ) 就分配到第二类上。\)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)