机器学习---线性模型
基本形式:
d个属性描述的示例x=(x1;x2;...;xd),xi是x在第i个属性上的取值。线性模型试图学一个通过属性的线性组合进行预测的函数:
f(x)=w1x1+w2x2+...+wdxd+b,
向量形式为
f(x)=wTx+b
w=(w1;w2;...;wd),w和b学得之后,模型可以确定。
非线性模型可以在线性模型基础上引入层级结构或高纬映射而得,此外w可以直观表达各属性在预测中农的重要性,有很好的解释性。
回归任务:
线性回归, 属性值间存在“序”的关系,则可以通过连续化将其转化为连续值,无“序”则可转化为向量。线性回归试图学得:
关键在于衡量f(x)与y之间的差别.其中,均方误差是回归任务中最常用的性能度量,可以试图让均方误差最小化:
几何意义:对应于常用的欧几里得距离“欧氏距离”,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
这个最小化的过程,称为线性回归模型的最小二乘"参数估计".
分别对w和b分别求导。
当都为0时,得到w和b最优解的闭式解
更一般的情形是如本节开头的数据集D,样本由d个属性描述,试图学得
此为“多元线性回归”
将标记写成向量形式y=(y1;y2;...;ym)有
令 对 w求导得
做一个简单的讨论当XTX为满秩矩阵或正定矩阵时,令求得的导为0得到多元最优解模型:
可以变换为ln y = wtx+b 此为“对数线性回归” 此为广义线性模型在g()=ln()时的特例
或者考虑到单调可微函数g(')
y=g-1(wtx+b)(广义线性模型)
3.3 对数几率回归
找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来,二分类问题:输出标记y为{0,1},线性回归模型产生的预测值z=wtx+b是实值
“单位阶跃函数”:
对数几率函数(logistic function):
y/1-y 称为“几率”,反映了x作为正例的相对可能性。对几率取对数则得到“对数几率”ln(y/1-y)
实际就是用线性回归模型的预测结果逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”
接下来 确定式中的w和b,若将y视为后验概率估计p(y=1|x)则可重写为
lnp(y=1|x)/p(y=0|x) = wtx+b
显然 p(y=1|x) = ewtx+b/1+ewtx+b , p(y=0|x) = 1/1+ewtx+b
所以此处通过“极大似然法”(最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。)
-->
-->
-->更新公式
-->一阶、二阶导数
线性判别分析:大概什么原理,解决什么问题
线性判别分析:设法将样例投影到一条直线上,同类样例投影尽可能接近,异类样例尽可能远离。对新样本分类时,将其投影到同样的直线上,根据投影点的位置确定新样本的类别。本质是根据两者数据集的类间散度矩阵(均值向量相减相乘)、和两者协方差矩阵求类内散度矩阵进行相加。而多分类任务定义了“全局散度矩阵”为两类矩阵之和。类内散度矩阵重定义为每个类别的散度矩阵之和,则Sb为全局减去类内散度矩阵。
LDA可以用于多分类、也被视为一种经典的降维技术
多分类任务:
对问题进行拆分,为拆出的每个二分类任务训练一个分类器;在测试时,对分类器的预测结果进行集成以获得最终的多分类结果。
经典拆分有三种,1对1,1对多,多对多
类别不平衡的问题:
分类任务中不同类别的训练样例数目差别很大。分类器决策规则为:若y/1-y > 1 。预测为正例。 实际情况为 y/1-y > m+/m- 则预测为正例。
解决的三种办法:再缩放:欠采样、过采样、阈值移动