机器学习-学习准则
1.学习准则
一个好的模型应该在所有取值上都与真实映射函数一致
2.损失函数 Loss Function
损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异
以回归问题为例
平方损失函数 Quadratic Loss Function
\(\mathcal{L}(y,f(x;\theta))=\frac{1}{2}(y-f(x;\theta))^2\)
3.期望风险 Expected Risk
\(\mathcal{R}(\theta)=\mathbb{E}_{(x,y)\sim p_r(x,y)}[\mathcal{L}(y,f(x;\theta))]\)
\(理想的学习准则应该是损失函数在真实的分布(p_r(x,y))下的期望最小化\)
\(但是实际这个期望风险无法计算,因为不知道 p_r(x,y)\)
\(根据大数定律,E_{p_r}[f(x)],通过采集p_r分布下的样本x^{(1)},...,x^{(N)},E\approx \frac{1}{N}[f(x^{(1)})+...+f(x^{(N)})]\)
\(样本就是训练集\)
期望风险可以近似为
\(训练数据:{x^{(n)},y^{(n)}}^N_{n=1}\)
\(经验风险(Empirical\ Risk)\)
\(\mathcal{R}_{D}^{emp}(\theta)=\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(y^{(n)},f(x^{(n)};\theta))\)
\(当N\rightarrow \infty,经验风险趋近于期望风险\)
经验风险最小化 Empirical Risk Minimization,ERM
\(寻找一个参数\theta^{*},使得经验风险函数最小化\)
\(\theta^{*}=argmin_{\theta}\mathcal{R}_{D}^{emp}(\theta)\)
当风险函数确定,机器学习问题转为一个最优化问题
4.凸,非凸问题
5.泛化误差
期望风险
\(\mathcal{R}(\theta)=\mathbb{E}_{(x,y)\sim p_r(x,y)}[\mathcal{L}(y,f(x;\theta))]\)
经验风险(Empirical Risk)
\(\mathcal{R}_{D}^{emp}(\theta)=\frac{1}{N}\sum_{n=1}^{N}\mathcal{L}(y^{(n)},f(x^{(n)};\theta))\)
泛化误差
\(\mathcal{G}_D(\theta)=\mathcal{R}(\theta) - \mathcal{R}_{D}^{emp}(\theta)\)
6.正则化
降低模型复杂度