Andrew Ng机器学习课程笔记--week2（多元线性回归&正规公式）

1. 内容概要

Multivariate Linear Regression(多元线性回归)
- 多元特征
- 多元变量的梯度下降
- 特征缩放
Computing Parameters Analytically
- 正规公式（Normal Equation )
- 正规公式非可逆性（Normal Equation Noninvertibility）

2. 重点&难点

1）多元变量的梯度下降

多元变量的梯度下降

2）特征缩放

为什么要特征缩放

首先要清楚为什么使用特征缩放。见下面的例子

特征缩放前

由图可以知道特征缩放前，表示面积的x1变量的值远大于x2，因此J(θ)图像表示就是椭圆的，导致在梯度下降的过程中，收敛速度非常慢。

特征缩放后

对各变量特征缩放后绘制出来的损失函数J(θ)明显收敛更快，这也是为什么需要特征缩放的原因了。

实现方法

feature scaling

\[\begin{equation} x_i := \frac{x_i}{x_\max - x_\min} \end{equation} \]

每个输入值除以(max - min)

mean normalization

\[\begin{equation} x_i := \frac{x_i - μ_i}{s_i} \end{equation} \]

μ_i: 均值
s_i: max - min

3) Normal Equation 正规方程式

Normal Equation

\[\begin{equation} θ = （X^T·X）^{﹣1}·X·Y \end{equation} \]

具体推理过程详见掰开揉碎推导Normal Equation

与梯度下降方法进行比较

梯度下降	正规方程式
需要选择步长α	不需要选择步长α
需要迭代训练很多次	一次都不需要迭代训练
O(kn²)	O(n³,计算(X^T·X)^-1需要花费较长时间
即使数据特征n很大，也可以正常工作	n如果过大，计算会消耗大量时间

4）正规方程不可逆

当X^T·X不可逆时，很显然此时正规方程将不能正常计算，常见原因如下：

冗余特征，在两个特点紧密相关(即它们呈线性关系，例如面积和（长，宽)这两个特征线性相关）
太多的特征(例如：m≤n)。在这种情况下，可以删除一些特征或使用"regularization"。

补充：

A是可逆矩阵的充分必要条件是 |A|≠0

posted @ 2017-08-25 17:24 marsggbo 阅读(1603) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

2025年1月

日

一

二

三

四

五

六

marsggbo

互道晚安，王者峡谷见