机器学习（四）线性回归

线性回归：

回归：

给定一组数据 xn和目标值 tn

目标：再给定新的输入x的时候得出估计值t

线性方程模型： 固定的非线性基函数的线性组合

方程：

参数w:

基函数：

约定俗称：

w0为偏置参数（bias parameter)

常见基函数：

1.多项式函数：

限制：多项式方程是输入值x的global function.

拓展：将输入空间分解成不同的区域来拟合不同的多项式

2。高斯函数

并不是概率密度分布

不需要正则化

3.S函数（sigmodial)

4:傅里叶基函数

每个基函数代表一个频率

5.小波函数

6 样条函数

最大似然估计与最小二乘法

首先假使基函数为

目标t由产生

噪音由精度为β 平均数为0 的正态分布产生

因为可知 (似然函数）

t的值是以y 和 β^-1为参数的正态分布

给定一系列输入x和目标值t

假设数据都是独立同分布的（i.i.d.)

似然函数可写作

考虑最大似然函数

其中误差平方和的误差函数为

由此可得，最大似然即为最小误差

转换格式

则最大似然的log值为

寻找最大似然函数的对数的临界点

在方向ε上方向导数：

在各个方向都为0

所以

得出结论：

其中为摩尔－彭若斯广义逆

证明：临界点为最大值点

由此，最大似然可写作

再次找到 lnp关于β的临界点

得

最小二乘法的几何意义：

Sequential Learning-Stochastic Gradient Descent 随机梯度下降法

1.对于较大的数据集，w和β的计算很耗时

2.对于线上应用，不是所有数据都存储在内存的

3因此采用Sequential Learning

详细说明：https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap1/c1s5.html

步骤：使用一些数据初始化 w0

更新参数w，公式

其中En为第n次数据集, η为自己设定的学习速率.

对于平方和误差方程来说，公式为

警惕学习速率的选择，太大会无法收敛，太小则效率太慢

正则化

http://www.cnblogs.com/jianxinzhou/p/4083921.html

防止过拟合

多输出：

结论仍然试用

偏置方差分解：暂空

损失函数：

选择一个估计值 y(x)

选择一个损失函数 L(t,y(x)) 测量t 和 x 的差距

那么损失期望为

posted @ 2017-04-11 13:34 总有一缺的无瑕之月A 阅读(340) 评论(0) 收藏举报

刷新页面返回顶部