正规函数
正规函数
标签(空格分隔): 正规函数 吴恩达
正规函数是除了梯度下降之外,另一种求解最优值的方法。
本篇博客首先介绍正规函数方法,然后将其与梯度下降做一对比。
对于\(m\)个训练数据\((x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\), \(n\)个特征,可以抽取出如下形式:
\[X=\begin{bmatrix} x^{(1)}_0 & x^{(1)}_1 \cdots & x^{(1)}_n \\\\ x^{(2)}_0 & x^{(2)}_1 \cdots & x^{(2)}_n \\\\ \vdots & \vdots & \vdots \\\\ x^{(m)}_0 & x^{(m)}_1 \cdots & x^{(m)}_n
\end{bmatrix}\]
\[y = \begin{bmatrix} y^{(1)} \\\\ \vdots \\\\ y^{(m)} \end{bmatrix}
\]
则求解过程等价于解方程:
\[X\theta = y
\]
这个方程的解为:
\[\theta = (X^TX)^{-1}X^Ty
\]
此处只给出结论,并不做证明(事实上是因为我不会。。),但有几点需要说明:
- \((X^TX)^{-1}\)可能不存在,但在实际的机器学习中这种情况很少见,如果出现,通常要么是有冗余属性(例如,房子面积出现了两次,一次以平方米为单位,一次以平方英尺为单位),要么是训练集数据规模远小于属性个数。
- 一些数值方法能给出逆矩阵的近似解(或者广义逆)。
正规矩阵跟梯度下降对比如下:
梯度下降 | 正规函数 |
---|---|
需要选则参数 $\alpha $ | 不需要选则参数 |
需要多次迭代 | 不需要多次迭代 |
当数据规模较大时,依然有效 | 当数据规模较大时,运算量太大 |