《统计学习方法》李航 读书笔记
第1章
模型、策略、算法
模型:问题的建模,一般是条件概率的设计或者是决策函数的设计。
策略:一般是损失函数的设计。
算法:模型参数的寻优问题,例如 SGD,或者 Softmax。
机器学习基础知识
查准率、查全率、准确率定义
\[Preision = \frac{TP}{TP+FP} \\
Recall = \frac{TP}{TP+FN} \\
Accuracy = \frac{TP+TN}{TP+FP+TN+FN}
\]
第9章
例9.1(三硬币模型)
详细计算过程
已知投掷 10 次硬币,得到硬币正面 6 个,背面 4 个。
初值 \(\pi^{(0)}=0.5 \quad p^{(0)} = 0.5 \quad q^{(0)} = 0.5\)
\[\begin{align}
y_j = 1 时,& \mu^{(1)} = \frac{0.5\times(0.5)^{1}}{0.5\times(0.5)^{1} + (1-0.5)(0.5)^1} = 0.5 \\
y_j = 0 时,& \mu^{(1)} = 0.5 \\
\pi^{(1)} &= \frac{1}{10} \sum_{j=1}^{10}0.5 = 0.5 \\
p^{(1)} &= \frac{6\times0.5\times1+4\times0.5\times0}{5} = 0.6 \\
q^{(1)} &= \frac{6\times(1-0.5)}{10\times(1-0.5)} = 0.6
\end{align}
\]
迭代第一次,得到 \(\pi^{(1)} = 0.5 \quad p^{(1)} = 0.6 \quad q^{(1)}=0.6\)
\[\begin{align}
y_j = 1 时,& \mu^{(2)} = \frac{0.5\times(0.6)^{1}}{0.5\times(0.6)^{1} + (1-0.5)(0.6)^1} = 0.5 \\
y_j = 0 时,& \mu^{(2)} = \frac{0.5\times(1- 0.6)^{1}}{0.5\times(0.6)^{0}\times(1-0.6)^{1-0} + (1-0.5)(0.6)^0(1-0.6)^1} = 0.5 \\
\pi^{(2)} &= \frac{1}{10} \sum_{j=1}^{10}0.5 = 0.5 \\
p^{(2)} &= \frac{6\times0.5\times1+4\times0.5\times0}{5} = 0.6 \\
q^{(2)} &= \frac{6\times(1-0.5)}{10\times(1-0.5)} = 0.6
\end{align}
\]
迭代第二次,得到 \(\pi^{(2)} = 0.5 \quad p^{(2)} = 0.6 \quad q^{(2)}=0.6\) ,收敛。
公式推导
已知随机变量A,B,C都服从0-1分布,所以有如下分布律
\[\begin{equation}
\left\{
\begin{gathered}
X_{A} \sim b(1,\pi) \\
X_{B} \sim b(1,p) \\
X_{C} \sim b(1,q)
\end{gathered}
\right.
\end{equation}
\]
由此可以得到第二枚硬币(可能是B或C)的分布律
\[\begin{equation}
\left\{
\begin{array}
Y_{Z} &= X_{A} \\
Y_{B} &\sim \pi b(1,p) \\
Y_{C} &\sim (1-\pi) b(1,q)
\end{array}
\right.
\end{equation}
\implies
Y = Y_B + Y_C \sim \pi b(1,p) + (1-\pi) b(1,q)
\]
习题
1.1 伯努利模型下的极大似然估计与贝叶斯估计。
答:
伯努利模型:总体信息、样本信息
\[P(A|\theta) = \sum_{i=1}^{N}\frac{I(O_i = 1)}{N} \quad ^{[1]}
\]
贝叶斯估计:总体信息、样本信息、先验信息
\[P(A|\theta_{Bayes}) = \frac{k+1}{N+2}
\]
[1] 《概率论与数理统计(第二版)》卯师松. 高等教育出版社
1.2 当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
经验风险最小化 \(\min \frac{1}{N}\sum_{i=1}^{N} L(y_i|f(x_i))\)
对数损失函数 \(L(Y,P(X|Y)) = -\log P(Y|X)\)
证明:
损失函数为对数函数时的经验风险最小化
\[\begin{align}
\min \frac{1}{N}\sum_{i=1}^{N} -\log P(Y|X) & = \max \frac{1}{N}\sum_{i=1}^{N} \log P(Y|X) \\
& \Longrightarrow \max \frac{1}{N}\log\sum_{i=1}^{N} P(Y|X) \\
& \Longrightarrow \max \frac{1}{N} \sum_{i=1}^{N} P(Y|X) \quad 极大似然估计
\end{align}
\]
9.1 用初值 \(\pi^{(0)}=0.46 \quad p^{(0)} = 0.55 \quad q^{(0)} = 0.67\) 迭代例9.1
初值 \(\pi^{(0)}=0.46 \quad p^{(0)} = 0.55 \quad q^{(0)} = 0.67\)
\[\begin{align}
y_j=1时&,u_j^{(1)} = \frac{0.46\times0.55}{0.46\times0.55+(1-0.46)0.67} = 0.4115 \\
y_j=0时&,u_j^{(1)} = \frac{0.46\times(1-0.55)}{0.46\times(1-0.55)+(1-0.46)(1-0.67)} = 0.5374 \\
\pi^{(1)} &= \frac{6\times0.4115+4\times0.5374}{10} = 0.4619 \\
p^{(1)} &= \frac{6\times0.4115}{6\times0.4115 + 4\times0.5374} = 0.5346 \\
q^{(1)} &= \frac{6\times(1-0.4115)}{6\times(1-0.4115)+4\times(1-0.5374)} = 0.6561
\end{align}
\]
第一次迭代,得到 \(\pi^{(1)} = 0.4619 \quad p^{(1)} = 0.5346 \quad q^{(1)}=0.6561\)
\[\begin{align}
y_j=1时&, u_j^{(2)} = \frac{0.4619\times0.5346}{0.4619\times0.5346 + (1-0.4619)0.6561} = 0.4117 \\
y_j=0时&, u_j^{(2)} = \frac{0.4619\times(1-0.5346)}{0.4619\times(1-0.5346) + (1-0.4619)(1-0.6561)} = 0.5347 \\
\pi^{(2)} &= \frac{6\times0.4117+4\times0.5374}{10} = 0.4620 \\
p^{(2)} &= \frac{6\times0.4117}{6\times0.4117+4\times0.5374} = 0.5347 \\
q^{(2)} &= \frac{6\times(1-0.4117)}{6\times(1-0.4117) + 4\times(1-0.5374)} = 0.6561
\end{align}
\]
第二次迭代,得到 \(\pi^{(1)} = 0.4620 \quad p^{(1)} = 0.5347 \quad q^{(1)}=0.6561\) ,收敛。
9.2 证明 \(P(Y|\theta) = \sum_{Z}P(Z|\theta)P(Y|Z,\theta)\) 。
\[\begin{align}
P(Y|\theta) & = P(Y,Z|\theta) \\
& = \sum_{i=1}^{N} P(Y,z_i |\theta) \\
& = \sum_{i=1}^{N} P(Y |z_i,\theta) P(z_i|\theta) \quad ,根据P(Y,Z)=P(Y|Z)P(Z)\\
& = \sum_{i=1}^{N} P(z_i|\theta) P(Y |z_i,\theta)
\end{align}
\]
证毕