机器学习(四) 线性回归
线性回归:
回归:
给定一组数据 xn和目标值 tn
目标:再给定新的输入x的时候得出估计值t
线性方程模型: 固定的非线性基函数的线性组合
方程:
参数w:
基函数:
约定俗称:
w0为偏置参数(bias parameter)
常见基函数:
1.多项式函数:
限制:多项式方程是输入值x的global function.
拓展:将输入空间分解成不同的区域来拟合不同的多项式
2。高斯函数
并不是概率密度分布
不需要正则化
3.S函数(sigmodial)
4:傅里叶基函数
每个基函数代表一个频率
5.小波函数
6 样条函数
最大似然估计与最小二乘法
首先假使 基函数 为
目标t由产生
噪音由 精度为β 平均数为0 的正态分布产生
因为可知 (似然函数)
t的值是 以y 和 β^-1为参数的正态分布
给定一系列输入x和目标值t
假设数据都是独立同分布的(i.i.d.)
似然函数 可写作
考虑最大似然函数
其中 误差平方和的误差函数为
由此可得,最大似然即为最小误差
转换格式
则最大似然的log值为
寻找最大似然函数的对数的临界点
在方向ε上方向导数:
在各个方向都为0
所以
得出结论 :
其中 为摩尔-彭若斯广义逆
证明:临界点为最大值点
由此,最大似然可写作
再次找到 lnp关于β的临界点
得
最小二乘法的几何意义:
Sequential Learning-Stochastic Gradient Descent 随机梯度下降法
1.对于较大的数据集,w和β的计算很耗时
2.对于线上应用,不是所有数据都存储在内存的
3因此采用Sequential Learning
详细说明:https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap1/c1s5.html
步骤:使用一些数据初始化 w0
更新参数w, 公式
其中En为第n次数据集, η为自己设定的学习速率.
对于平方和误差方程来说,公式为
警惕学习速率的选择,太大会无法收敛,太小则效率太慢
正则化
http://www.cnblogs.com/jianxinzhou/p/4083921.html
防止过拟合
多输出:
结论仍然试用
偏置方差分解:暂空
损失函数:
选择一个估计值 y(x)
选择一个损失函数 L(t,y(x)) 测量t 和 x 的差距
那么损失期望为