《统计学习方法》李航 读书笔记

《统计学习方法》李航 读书笔记

第1章

模型、策略、算法

模型:问题的建模,一般是条件概率的设计或者是决策函数的设计。

策略:一般是损失函数的设计。

算法:模型参数的寻优问题,例如 SGD,或者 Softmax。

机器学习基础知识

查准率、查全率、准确率定义

\[Preision = \frac{TP}{TP+FP} \\ Recall = \frac{TP}{TP+FN} \\ Accuracy = \frac{TP+TN}{TP+FP+TN+FN} \]

第9章

例9.1(三硬币模型)

详细计算过程

已知投掷 10 次硬币,得到硬币正面 6 个,背面 4 个。

初值 \(\pi^{(0)}=0.5 \quad p^{(0)} = 0.5 \quad q^{(0)} = 0.5\)

\[\begin{align} y_j = 1 时,& \mu^{(1)} = \frac{0.5\times(0.5)^{1}}{0.5\times(0.5)^{1} + (1-0.5)(0.5)^1} = 0.5 \\ y_j = 0 时,& \mu^{(1)} = 0.5 \\ \pi^{(1)} &= \frac{1}{10} \sum_{j=1}^{10}0.5 = 0.5 \\ p^{(1)} &= \frac{6\times0.5\times1+4\times0.5\times0}{5} = 0.6 \\ q^{(1)} &= \frac{6\times(1-0.5)}{10\times(1-0.5)} = 0.6 \end{align} \]

迭代第一次,得到 \(\pi^{(1)} = 0.5 \quad p^{(1)} = 0.6 \quad q^{(1)}=0.6\)

\[\begin{align} y_j = 1 时,& \mu^{(2)} = \frac{0.5\times(0.6)^{1}}{0.5\times(0.6)^{1} + (1-0.5)(0.6)^1} = 0.5 \\ y_j = 0 时,& \mu^{(2)} = \frac{0.5\times(1- 0.6)^{1}}{0.5\times(0.6)^{0}\times(1-0.6)^{1-0} + (1-0.5)(0.6)^0(1-0.6)^1} = 0.5 \\ \pi^{(2)} &= \frac{1}{10} \sum_{j=1}^{10}0.5 = 0.5 \\ p^{(2)} &= \frac{6\times0.5\times1+4\times0.5\times0}{5} = 0.6 \\ q^{(2)} &= \frac{6\times(1-0.5)}{10\times(1-0.5)} = 0.6 \end{align} \]

迭代第二次,得到 \(\pi^{(2)} = 0.5 \quad p^{(2)} = 0.6 \quad q^{(2)}=0.6\) ,收敛。

公式推导

已知随机变量A,B,C都服从0-1分布,所以有如下分布律

\[\begin{equation} \left\{ \begin{gathered} X_{A} \sim b(1,\pi) \\ X_{B} \sim b(1,p) \\ X_{C} \sim b(1,q) \end{gathered} \right. \end{equation} \]

由此可以得到第二枚硬币(可能是B或C)的分布律

\[\begin{equation} \left\{ \begin{array} Y_{Z} &= X_{A} \\ Y_{B} &\sim \pi b(1,p) \\ Y_{C} &\sim (1-\pi) b(1,q) \end{array} \right. \end{equation} \implies Y = Y_B + Y_C \sim \pi b(1,p) + (1-\pi) b(1,q) \]

习题

1.1 伯努利模型下的极大似然估计与贝叶斯估计。

答:

伯努利模型:总体信息、样本信息

\[P(A|\theta) = \sum_{i=1}^{N}\frac{I(O_i = 1)}{N} \quad ^{[1]} \]

贝叶斯估计:总体信息、样本信息、先验信息

\[P(A|\theta_{Bayes}) = \frac{k+1}{N+2} \]

[1] 《概率论与数理统计(第二版)》卯师松. 高等教育出版社

1.2 当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

经验风险最小化 \(\min \frac{1}{N}\sum_{i=1}^{N} L(y_i|f(x_i))\)

对数损失函数 \(L(Y,P(X|Y)) = -\log P(Y|X)\)

证明:

损失函数为对数函数时的经验风险最小化

\[\begin{align} \min \frac{1}{N}\sum_{i=1}^{N} -\log P(Y|X) & = \max \frac{1}{N}\sum_{i=1}^{N} \log P(Y|X) \\ & \Longrightarrow \max \frac{1}{N}\log\sum_{i=1}^{N} P(Y|X) \\ & \Longrightarrow \max \frac{1}{N} \sum_{i=1}^{N} P(Y|X) \quad 极大似然估计 \end{align} \]

9.1 用初值 \(\pi^{(0)}=0.46 \quad p^{(0)} = 0.55 \quad q^{(0)} = 0.67\) 迭代例9.1

初值 \(\pi^{(0)}=0.46 \quad p^{(0)} = 0.55 \quad q^{(0)} = 0.67\)

\[\begin{align} y_j=1时&,u_j^{(1)} = \frac{0.46\times0.55}{0.46\times0.55+(1-0.46)0.67} = 0.4115 \\ y_j=0时&,u_j^{(1)} = \frac{0.46\times(1-0.55)}{0.46\times(1-0.55)+(1-0.46)(1-0.67)} = 0.5374 \\ \pi^{(1)} &= \frac{6\times0.4115+4\times0.5374}{10} = 0.4619 \\ p^{(1)} &= \frac{6\times0.4115}{6\times0.4115 + 4\times0.5374} = 0.5346 \\ q^{(1)} &= \frac{6\times(1-0.4115)}{6\times(1-0.4115)+4\times(1-0.5374)} = 0.6561 \end{align} \]

第一次迭代,得到 \(\pi^{(1)} = 0.4619 \quad p^{(1)} = 0.5346 \quad q^{(1)}=0.6561\)

\[\begin{align} y_j=1时&, u_j^{(2)} = \frac{0.4619\times0.5346}{0.4619\times0.5346 + (1-0.4619)0.6561} = 0.4117 \\ y_j=0时&, u_j^{(2)} = \frac{0.4619\times(1-0.5346)}{0.4619\times(1-0.5346) + (1-0.4619)(1-0.6561)} = 0.5347 \\ \pi^{(2)} &= \frac{6\times0.4117+4\times0.5374}{10} = 0.4620 \\ p^{(2)} &= \frac{6\times0.4117}{6\times0.4117+4\times0.5374} = 0.5347 \\ q^{(2)} &= \frac{6\times(1-0.4117)}{6\times(1-0.4117) + 4\times(1-0.5374)} = 0.6561 \end{align} \]

第二次迭代,得到 \(\pi^{(1)} = 0.4620 \quad p^{(1)} = 0.5347 \quad q^{(1)}=0.6561\) ,收敛。

9.2 证明 \(P(Y|\theta) = \sum_{Z}P(Z|\theta)P(Y|Z,\theta)\)

\[\begin{align} P(Y|\theta) & = P(Y,Z|\theta) \\ & = \sum_{i=1}^{N} P(Y,z_i |\theta) \\ & = \sum_{i=1}^{N} P(Y |z_i,\theta) P(z_i|\theta) \quad ,根据P(Y,Z)=P(Y|Z)P(Z)\\ & = \sum_{i=1}^{N} P(z_i|\theta) P(Y |z_i,\theta) \end{align} \]

证毕

posted @ 2018-04-08 10:25  健康平安快乐  阅读(402)  评论(0编辑  收藏  举报