线性回归

基本形式:

    $f(x_{i})=W^{T}X_{i} + b$,使得$f(x_{i}) \approx y_{i}$

最小二乘估计:

    $\widehat{w}^{*}= \underset{\widehat{w}}{arg min}(y - X\widehat{w})^{T}(y - X\widehat{w})$

令$E_{\widehat{w}}=(y - X\widehat{w})^{T}(y - X\widehat{w})$对$\widehat{w}$其求导:

    $\frac{\partial E_{\widehat{w}}}{\partial x}=2 X^{T}(X\widehat{w}-y)$

如果$X^{T}X$为满秩矩阵或正定矩阵时,令上式为0:

    $\widehat{w}^{*}=(X^{T}X)^{-1}X^{T}y$

    

logistic回归:把x映射到0-1范围内。

    $y=\frac{1}{1+e^{-z}}$  (sigmoid函数)

    $ln\frac{y}{1-y}=w^{T}x+b$

确定w和b:

    $ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b$

显然有:

    $p(y=1|x) = \frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$

    $p(y=0|x) = \frac{1}{1+e^{w^{T}x+b}}$

通过极大似然法:

最大化:

    $\iota (w,b)=\sum_{i=1}^{m} ln(p(y_{i}|x_{i};w,b))$    

因为$p(y_{i}|x_{i};w,b)=y_{i}P_{1}(\widehat{x_{i}};\beta )+(1-y_{i})P_{0}(\widehat{x_{i}};\beta )$,所以等价于最小化:

    $\iota (\beta )=\sum_{i=1}^{m} (-y_{i}\beta^{T}x_{i} + ln(1+e^{\beta^{T}x_{i}}))$  (把常数去掉)

牛顿法:

    $\beta^{t+1}=\beta^{t}-(\frac{\partial^2 \iota (\beta)}{\partial \beta \partial \beta^{T}})^{-1}\frac{\partial \iota (\beta)}{\partial \beta}$ 

    

 LDA:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。

给定数据集$D= \{(x_{i},y_{i})\}_{i=1}^{m},y_{i}  \in \{0,1\} $,令$X_{i}$、$\mu _{i}$、$ \sum_{i}$,分别表示第$i \in \{0,1\} $类示例的集合,均值向量、协方差矩阵。若将数据投影到直线w上,则俩类样本的中心在直线上的投影分别是$w^{T}\mu_{0}$和$w^{T}\mu_{1}$,若将所有样本点都投影到直线上,则俩类样本的协方差分别是$w^{T}  \sum_{0} w$和$w^{T}  \sum_{1} w$

使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离,即$w^{T}  \sum_{0} w + w^{T}  \sum_{1} w$尽可能小和$\| w^{T}\mu_{0}-w^{T}\mu_{1} \|^{2}_{2}$尽可能大,所以最大化:

      $J=\frac {\| w^{T}\mu_{0}-w^{T}\mu_{1} \|^{2}_{2}}{w^{T}  \sum_{0} w + w^{T}  \sum_{1} w}$

      $=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\sum_{0}+\sum_{1})w}$

类内散度矩阵:

      $S_{w}=\sum_{0}+\sum_{1}$

类间散度矩阵:

      $S_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}$

则重写为:

      $J=\frac{w^{T}S_{b}w}{w^{T}S_{w}w}$

因为分子和分母都有w的二次项,则w的解与w的长度无关,只与其方向有关,因为若w是一个解则对于任意常数a,aw也是w的一个解。所以等价于求解:

      $\underset{w}{min}-w^{T}S_{b}w$

      $s.t.w^{T}S_{w}w=1$

由于拉格朗日乘子:

      $S_{b}w=\lambda S_{w}w$

如果$S_{w}$可逆等价于:

      $S_{w}^{-1}S_{b} w=\lambda w$

$\lambda$是$S_{w}^{-1}S_{b}$的特征值。(可根据特征值与特征向量来求解)

由于$\lambda$是拉格朗日乘子且$(\mu_{0}-\mu_{1})^{T}w$为实数则$S_{b}w$的方向恒为$\mu_{0}-\mu_{1}$:

      $S_{b}w=\lambda (\mu_{0}-\mu_{1})$

得:

      $w=S_{w}^{-1}(\mu_{0}-\mu_{1})$

      

      

posted @ 2019-08-25 23:24  小xxxx程序员  阅读(194)  评论(0编辑  收藏  举报