正规函数

正规函数

标签(空格分隔): 正规函数 吴恩达


正规函数是除了梯度下降之外,另一种求解最优值的方法。
本篇博客首先介绍正规函数方法,然后将其与梯度下降做一对比。
对于\(m\)个训练数据\((x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\), \(n\)个特征,可以抽取出如下形式:

\[X=\begin{bmatrix} x^{(1)}_0 & x^{(1)}_1 \cdots & x^{(1)}_n \\\\ x^{(2)}_0 & x^{(2)}_1 \cdots & x^{(2)}_n \\\\ \vdots & \vdots & \vdots \\\\ x^{(m)}_0 & x^{(m)}_1 \cdots & x^{(m)}_n \end{bmatrix}\]

\[y = \begin{bmatrix} y^{(1)} \\\\ \vdots \\\\ y^{(m)} \end{bmatrix} \]

则求解过程等价于解方程:

\[X\theta = y \]

这个方程的解为:

\[\theta = (X^TX)^{-1}X^Ty \]

此处只给出结论,并不做证明(事实上是因为我不会。。),但有几点需要说明:

  • \((X^TX)^{-1}\)可能不存在,但在实际的机器学习中这种情况很少见,如果出现,通常要么是有冗余属性(例如,房子面积出现了两次,一次以平方米为单位,一次以平方英尺为单位),要么是训练集数据规模远小于属性个数。
  • 一些数值方法能给出逆矩阵的近似解(或者广义逆)。

正规矩阵跟梯度下降对比如下:

梯度下降 正规函数
需要选则参数 $\alpha $ 不需要选则参数
需要多次迭代 不需要多次迭代
当数据规模较大时,依然有效 当数据规模较大时,运算量太大
posted @ 2016-07-24 18:37  beisong  阅读(921)  评论(0编辑  收藏  举报