Data Analysis A Bayesian Tutorial

第一章(基础)：
演绎逻辑(概率)
归纳逻辑(统计)
如果手头的证据表明这是最好的做法，那么决定是明智的，即使它会导致灾难性的后果; 如果期望这些后果是不合理的，即使它导致了最可能的后果，这个决定是愚蠢的

求和公式：\(p(X|I)+p(\hat{X}|X)=1\)
乘积公式：\(p(X,Y|I)=p(X|Y,I)p(Y|I)\)
贝叶斯定理\(p(X|Y,I)=\frac{p(Y|X,I)p(X|I)}{P(Y|I)}\)，其中p(X|I)称为先验概率
贝叶斯将因果转换过来，这是非常有价值的

概率代表了一种信念程度或可信度：根据手头的证据，他们认为某些事情是真实的
我们真正想做的是根据我们实际拥有的（少数）数据，对质量进行最佳推理; 这恰恰是贝叶斯和拉普拉斯的概率观

拉普拉斯使用（他的）概率理论来估算土星的质量，给出了他从各种天文观测台获得的轨道数据。实质上，他给出了质量 M 的后验pdf ，给出了数据和所有相关背景信息 I ：p(M|data,I)
根据频率定义，我们不允许使用概率论来解决这个问题。这是因为土星的质量是一个常数而不是随机变量; 因此，它没有频率分布，因此不能使用概率论。

例子：
假设一个黑色的包包含五个红色球和七个绿色球，假设没有放回的抽取；显然，在第二次抽签中获得红色或绿色球的可能性将取决于第一次抽球的结果似乎是合理的。现在假设我们没有被告知第一次抽签的结果，而是给出了第二次抽签的结果。第一次抽奖的概率是红色还是绿色是否随着第二次抽签的知识而变化？是的，如果我们考虑一个只包含一个红色球和一个绿色球的球袋的极端情况，这个参数中的错误就变得很明显了。虽然第二次抽签不能影响物理意义上的第一次，但第二次结果的知识确实影响我们可以推断出第一次结果的结果：如果第二次是绿色，那么第一次必须是红色; 反之亦然

流行的观点(频率派)认为，如果一个概率代表一个信念程度，那么它必须是主观的，因为我的信念可能与你的不同。贝叶斯观点认为概率确实代表了我们认为某些事物是真实的，但这种信念应该基于所有可用的相关信息。虽然这使得概率的分配成为一个开放式问题，但由于我所掌握的信息可能与您无法获得的信息不同，因此它与主观性不同。它简单地表示概率始终是有条件的，并且必须明确说明这种条件。正如杰恩斯指出的那样，客观性只要求具有相同信息的两个人应该分配相同的概率; 这一原则在（客观）贝叶斯方法的现代发展中发挥了关键作用。

随着经验证据的增长，无论我们最初的信念如何，我们最终都会得出相同的结论; 后验pdf然后由似然函数支配，并且先验的选择在很大程度上变得无关紧要

一步或按顺序分析数据，其结果是一致的

可靠性：最佳估计，误差条和置信区间
由于与参数的任何特定值相关联的概率（密度）是我们认为它位于该点附近的程度的度量，因此我们的最佳估计由后验pdf的最大值给出。
X的最佳估计\(X_o\)为：\(\frac{dP}{dX}|_{X_o}=0\),\(\frac{d^2P}{dX^2}|_{X_o}<0\)

当考虑特定点\(X_o\)附近的任何函数的行为时，执行泰勒级数展开通常是有帮助的
对p(X|data,I)做一log变换，\(L=log_e[prob(X|{data},I)]\),并对L进行泰勒展开
\(L=L(X_o)+\frac{1}{2}\frac{d^2L}{dX^2}|_{X_o}(X-X_o)^2+...\)
prod(X|{data},I)=A*exp[\(\frac{1}{2}\frac{d^2L}{dX^2}|_{X_o}(X-X_o)^2\)]
正态分布公式为：\(\frac{1}{\sigma \sqrt{2*pi}} exp[-\frac{ (x-\mu)^2 }{2\sigma ^2}]\)
所以：\(\sigma = ( - \frac{d^2 L}{d X^2}|_{X_o})^{-\frac{1}{2}}\)

然而，当后验概率明显是偏态分布时，虽然\(X_o\)仍是正确的，但误差条将不再使用

对于非对称后验pdf，表达可以推断参数的可靠性的一种好方法是通过置信区间，包围95％面积的最短间隔（\(min(X_2-X_1);其中X_2>X_0,X_1<X_0\)）代表了估计不确定性的合理测量

多维概率密度(多个参数的估计问题)的可靠性：最佳估计，相关性和误差条

由于与参数的任何特定值集相关联的概率（密度）是我们认为它们（实际上）位于这些值的邻域中的程度的度量，因此我们的最优估计由后验pdf的最大值给出。如果我们用 {\(X_j\)} 表示感兴趣的数量，后验概率P=prob({\(X_j\)}|{data},I)
那么它们的最佳估计值{\(X_{oj}\)}由一组同时方程的解决方案给出：
\(\frac{dP}{dX_i}|_{X_{oj}}=0\),i=1,2...

使用P的对数更方便，而不是使用后验pdf本身.由于对数是单调函数，L的最大值出现在与P相同的位置;
L=\(log_{e}\)[prob({\(X_j\)}|{data},I)]

我们先考虑两个变量的具体情况，而不是通过几个参数来概括地进行这种分析。我们将用X和Y表示它们，而不是\(X_1\)和\(X _2\)，以减少下标的多样性。我们现在必须解决的一对联立方程，以获得我们的最佳估计\(X_o\)和\(Y_o\)，由下式给出:
\(\frac{dL}{dX}|_{X_o,Y_o}=0,\frac{dL}{dY}|_{X_o,Y_o}=0\)
其中L = \(log_e[prob(X,Y|{data},I)]\)

为了衡量这一最佳估计的可靠性，我们需要看一下关于点(\(X_o，Y_o\) ）的二维后验pdf的传播,利用泰勒级数将其展开

\[L=L(X_o,Y_o)+\frac{1}{2}[\frac{d^2L}{dX^2}|_{X_o,Y_o}(X-X_o)^2+\frac{d^2L}{dY^2}|_{X_o,Y_o}(Y-Y_o)^2+2 \frac{d^2L}{dXdY}|_{X_o,Y_o}(X-X_o)(Y-Y_o)]+.. \]

三个二次项是决定后验pdf宽度的主要因素,在可靠性分析中发挥核心作用
为了有助于将此讨论推广到稍后的几个变量的情况，让我们用矩阵表示法重写eqn（3.17）的二次部分:
Q=\((X-X_o,Y-Y_o)\left[ \begin{matrix} A&C\\ C&B\\ \end{matrix} \right] \left[ \begin{matrix} X-X_o\\ Y-Y_o\\ \end{matrix} \right]\)
其中，\(A=\frac{d^2L}{dX^2}|_{X_o,Y_o},B=\frac{d^2L}{dY^2}|_{X_o,Y_o},C=\frac{d^2L}{dXdY}|_{X_o,Y_o}\)

对于给定的轮廓水平（ Q = k ），它们也控制其大小。主轴的方向形式上对应于二阶导数的特征向量
\(\left[ \begin{matrix} A&C\\ C&B\\ \end{matrix} \right] \left[ \begin{matrix} x\\ y\\ \end{matrix} \right]=\lambda \left[ \begin{matrix} x\\ y\\ \end{matrix} \right]\)
满足上式子的两个特征值\(\lambda_1,\lambda_2\)与主方向的椭圆宽度相关。如果\((X_o,Y_o)\)是最大值点，那么\(\lambda_1,\lambda_2\)均为负数，这表示A<0，B<0，AB>\(C^2\)

假设我们只对了解X感兴趣，可以这样做：
prob(X|{data},I)=\(\int_{-\infty}^{\infty} prob(X,Y|{data},I)dY\),
其中prob(X,Y|{data},I)=exp(L)\(\propto\)exp(Q/2)
由附录A得，
prob(X|{data},I)\(\propto\) \(exp(\frac{1}{2}[\frac{AB-C^2}{B}](X-X_o)^2)\)
因此\(\sigma_X=\sqrt{\frac{-B}{AB-C^2}}\)
同样我们可以得到\(\sigma_Y=\sqrt{\frac{-A}{AB-C^2}}\)
\(\sigma_{XY}=\sqrt{\frac{C}{AB-C^2}}\)

posted @ 2018-09-30 22:15 blog_hfg 阅读(321) 评论(0) 收藏举报

刷新页面返回顶部

blog_hfg

Data Analysis A Bayesian Tutorial

公告