2.6. Statistical Models, Supervised Learning and Function Approximation

Statical model

 

  • regression

    $y_i=f_{\theta}(x_i)+\epsilon_i,E(\epsilon)=0$
    1.$\epsilon\sim N(0,\sigma^2)$ 2.使用最大似然估计$\rightarrow$最小二乘
    $y\sim N(f_{\theta}(x),\sigma^2)$
    $L(\theta)=-\frac{N}{2}log(2\pi)-Nlog\sigma -\frac{1}{2\sigma^2}\sum_i\left(y_i-f_{\theta}(x_i)\right)^2$
  • classification

    $p_{\theta}(g_i=k|X=x_i),k=1\cdots K$
    此处使用最大似然估计等同于Cross entropy和KL散度
    对于单个数据点$(x,g=k)$来说,其所属类别$g=k$为1,其余类别为0
    • $L(\theta)=logp(g=k|x)$ 需要最大化
    • $CE(p,q)=-\sum_x p(x)logq(x)$
      对应到本例$CE=-\sum_i p(g=i)logp(g=i|x_i)=-logp(g=k|x)$ 需要最小化
    • $KL(p,q)=\sum_x p(x)log\frac{p(x)}{q(x)}$
      对应本例$KL=\sum_i p(g=i)log\frac{p(g=i)}{p(g=i|x)}=log\frac{1}{p(g=k|x)}=-logp(g=k|x)$需要最小化
posted @ 2015-08-11 15:11  porco  阅读(266)  评论(0编辑  收藏  举报