2 监督学习 - Fanr_Zh

公告

2.1 由实例学习类
2.2 VC维
2.3 概率逼近正确学习
2.5 学习多类
2.6 回归
2.8 监督机器学习算法学习的维

2.1 由实例学习类

假设我们要学习“家用汽车”类C，先使用一些实例进行标记，家用汽车为正，其他为负。
类学习就是寻找一个涵盖所有的正例而不包含负例的描述。
这样我们就能：
给一辆没见过的车，检查学习得到的描述，对汽车进行判断是否为家用汽车。

\[\begin{aligned} x=[x_1,x_2]^T \\ r=\begin{cases} 1 & \text{如果为正} \\ 0 & \text{如果为负} \end{cases} \\ \chi = \{x^t,r^t\}_{t=1}^N \end{aligned} \]

专家分析，家用汽车价格和发动机功率应当在一个范围内

\[\begin{aligned} (p_1 \le \text{价格} \le p_2) and (e_1 \le \text{功率} \le e_2) \end{aligned} \]

这样有了一个假设\(h \in H\)，尽可能的逼近类C

\[h(x)=\begin{cases} 1 & \text{如果h预测x为正} \\ 0 & \text{如果h预测x为负} \end{cases} \]

那么就有了误差，假设误差为：

\[E(h|\chi)= \overset{N}{\underset{t=1}{\sum}} 1(h(x^t \neq r^t)) \]

2.2 VC维

假设一个二分类问题，有N个样本，那么对于这N个样本有\(2^N\)个分类方法，可以定义\(2^N\)个学习方法。
那么对于任意一个问题我们都能找到一个假设\(h\in H\)分类，那么我们就称H散列N个点。
H的散列的点的最大数量成为H的VC维，记为VC(H),用来度量假设类H的学习能力。

2.3 概率逼近正确学习

概率逼近正确学习中，给定类C和未知但具有确定分布\(p(x)\)中取样，置信率\(\delta \le 1/2\)，误差\(\epsilon > 0\)

\[P\{C\Delta h \le \epsilon \} \ge 1-\delta \]

假设h误差至多为\(\epsilon\)的概率为\(1- \delta\),其中\(C\Delta h\)是C与h不同的区域。
矩形有4个小条子，那么正例不落在某个小条子的概率为：\(1-\epsilon /4\)，那么对于N个实例不在小条子的概率为\(4(1-\epsilon /4)^N\)(落在小条子里面为判断错误)我们希望最大值为\(\delta\).
因为有公式：\((1-x) \le exp[-x]\)
代入到公式有：\(4exp[-\epsilon N/4] \le \delta\)
整理后得到:\(N \ge (4/\epsilon)log(4/\delta)\)
由此得到为了保证置信率\(\delta ,\epsilon\)至少需要:\(N \ge (4/\epsilon)log(4/\delta)\)个样本。

2.5 学习多类

假设有K个类，标记为\(C_i,i=1,……,K\)
假设数据集，\(\chi = \{x^t,r^t\}_{t=1}^N\)
r是K维的，有：

\[r_i^t=\begin{cases} 1 & \text{如果} x_t \in C_i \\ 0 & \text{如果} x_t \in C_j, j \neq i \end{cases} \]

对于预测有：

\[h_i(x^t)=\begin{cases} 1 & \text{如果} x_t \in C_i \\ 0 & \text{如果} x_t \in C_j, j \neq i \end{cases} \]

则误差有：

\[E(\{h_i\}_{i=1}^K|\chi)=\underset{t=1}{\overset{N}{\sum}}\underset{i=1}{\overset{K}{\sum}}1(h_i(x^t) \neq r_i^t) \]

2.6 回归

假设数据集，\(\chi = \{x^t,r^t\}_{t=1}^N\)
我们希望找出一个函数\(r^t=\operatorname{f}(x^t)\)
若加上噪声\(r^t=\operatorname{f}(x^t)+\varepsilon\)
对于噪声的解释就是，存在我们无法观测的额外隐藏变量\(r^t=\operatorname{f}(x^t,z^t)\)，\(z^t\)就是隐藏变量。
有误差函数：

\[E(g|\chi)= \frac 1 N \overset{N}{\underset{t=1}{\sum}} [ r^t - g(x^t)]^2 \]

假设x是线性的，我们有：

\[g(x)=\overset{N}{\underset{t=1}{\sum}}w_jx_j+w_0 \]

假设只有一个参数：

\[\begin{aligned} g(x) &=w_1x+w_0 \\ E(g|\chi)&= \frac 1 N \overset{N}{\underset{t=1}{\sum}} [ r^t - (w_1x^t+w_0)]^2 \end{aligned} \]

求\(w_0,w_1\)偏导为0，先求\(w_0\)在代入到对\(w_1\)求偏导的公式中得到:

\[\begin{aligned} w_0&=\bar r-w_1\bar x \\ w_1&=\frac{\underset{t}{\sum}x^tr^t - N\bar{x}\bar{r}} {\underset{t}{\sum}(x^t)^2 - N(\bar{x})^2} \end{aligned} \]

如果线性模型太简单也可以修改为二次函数：\(g(x)=w_2x^2+w_1x+w_0\)

2.8 监督机器学习算法学习的维

假设数据集，\(\chi = \{x^t,r^t\}_{t=1}^N\)
1.定义一个学习用的模型 \(g(x|\theta)\)，其中\(\theta\)是参数
2.定义一个损失函数\(\operatorname{L}()\),那么逼近误差或者损失是各个实例误差的和

\[E(\theta|\chi)=\underset{t}{\sum}L(r^t,g(x|\theta)) \]

3.最优化过程，求解参数\(\theta^*\)使得误差最小

\[\theta^*=arg \underset{\theta}{min} E(\theta|\chi) \]

posted on 2021-02-20 11:35 Fanr_Zh 阅读(75) 评论(0) 编辑收藏举报

刷新页面返回顶部