2.6. Statistical Models, Supervised Learning and Function Approximation
Statical model
-
regression
$y_i=f_{\theta}(x_i)+\epsilon_i,E(\epsilon)=0$
1.$\epsilon\sim N(0,\sigma^2)$ 2.使用最大似然估计$\rightarrow$最小二乘
$y\sim N(f_{\theta}(x),\sigma^2)$
$L(\theta)=-\frac{N}{2}log(2\pi)-Nlog\sigma -\frac{1}{2\sigma^2}\sum_i\left(y_i-f_{\theta}(x_i)\right)^2$
-
classification
$p_{\theta}(g_i=k|X=x_i),k=1\cdots K$
此处使用最大似然估计等同于Cross entropy和KL散度
对于单个数据点$(x,g=k)$来说,其所属类别$g=k$为1,其余类别为0
-
$L(\theta)=logp(g=k|x)$ 需要最大化
-
$CE(p,q)=-\sum_x p(x)logq(x)$
对应到本例$CE=-\sum_i p(g=i)logp(g=i|x_i)=-logp(g=k|x)$ 需要最小化
-
$KL(p,q)=\sum_x p(x)log\frac{p(x)}{q(x)}$
对应本例$KL=\sum_i p(g=i)log\frac{p(g=i)}{p(g=i|x)}=log\frac{1}{p(g=k|x)}=-logp(g=k|x)$需要最小化
-
$L(\theta)=logp(g=k|x)$ 需要最大化