LR模型常见问题
信息速览
- 基础知识介绍-广义线性回归
- 逻辑斯蒂回归模型推导
- 逻辑斯蒂回归常见问题
- 补充知识信息点
基础知识:
机器学习对结果的形式分类:
- 分类算法
- 回归算法
LR:logistic regression 逻辑斯谛回归 (对数几率回归 logit regression)
LR是一个分类模型 是一个基于线性回归(linear regression)的模型
1.预备知识
线形回归
采用均方误差最小的策略来进行优化
最小二乘法(least square method):
基于均方误差最小化来进行模型求解的方法
在真实的数据应用中,会将b参数融入参数\(\omega\)中\(\omega=(\omega;b)\)
最小二乘法也可以使用向量的形式来表示
对\(\omega\)求导,解得最优解。在\(det(X^{T}X)\neq 0\)时候
2.逻辑斯蒂回归
定义推导
基于线性回归的广义模型
找到一个单调可微函数将分类任务的真实标记y和线性模型的预测值联系起来。
应用与分类,分类函数- heaviside函数 ,但是其不是一个连续函数
利用 对数几率函数(sigmod函数)来进行代替
结合线性回归广义模型
- y-正例的可能性
- 1-y 反例的可能性
\(\frac{y}{1-y}\) 称为几率 odds $ln \frac{y}{1-y} $对数几率 log odds=logit
性质
通过[极大似然法](#maximum likelihood method)来估计\(\omega,b\)的值
- 似然函数:
- 对数似然函数
每个样本属于其真实标记的概率越大越好
利用梯度下降法、拟牛顿法来得到最优解
\(\hat{\omega}=argMAX_{\omega} L(\theta)\)
在计算中通常会将 w,b进行合并这样只有一个矩阵要求。
求极值,找到 w,b的最大值 \(\hat{\omega}\)
最终的逻辑斯蒂模型:
3.常见逻辑斯蒂回归问题
- LR模型的损失函数的推导
- 为什么要使用似然函数来实现
实现为正的概率最大,同时为负的概率也最大,每个样本都实现最大概率。
- LR模型的预测结果为什么很差
LR模型是线性模型,不能得到非线性模型,大部分实际问题不能用线性就能拟合。
- L1,L2正则化,降低模型复杂度
模型越复杂,越容易过拟合,这大家都知道,加上L1正则化给了模型的拉普拉斯先验,加上L2正则化给了模型的高斯先验。从参数的角度来看,L1得到稀疏解,去掉一部分特征降低模型复杂度。L2得到较小的参数,如果参数很大,样本稍微变动一点,值就有很大偏差,这当然不是我们想看到的,相当于降低每个特征的权重。
4.补充知识点
基于线性模型的其他“广义模型”
- LWLR 局部加权回归 locally weighted linear regression
对于预测值附近的赋予一定的权重W
参数k是用户赋值参数,决定权重赋值的比例
- 岭回归 ridge regression
当数据中特征比数据样本点还多的时候,就不能使用简单的线性回归函数
在计算\((X^{T}X)^{-1}\)会出现错误,\(n>m ,X\)不是满秩矩阵。
通过缩减系数来实现算法
加入一个矩阵,使\((X^{T} X+\lambda I_{mxm})\)可逆,非奇异
- lasso,前向逐步回归,PCA回归
极大似然估计
总体 X 属离散型 \(p{X=x}=p(x;\theta)\) 其中\(\theta\)为待估参数,\(X_{1},X_{2},...,X_{N}\)为X的样本
样本的联合分布概率:$$\prod_{i=1}^{n}p(x_{i} | \theta)$$
\(x_{1},x_{2},...,x_{n}\)是相应于样本\(X_{1},X_{2},...,X_{N}\)的一个样本值
事件\({ X_{1}=x_{1},X_{2}=x{2},...,X_{n}=x_{n} }\)发生的概率:
样本的似然函数\(L(\theta)\),是\(\theta\)的函数,会因取值而改变
挑选能够让似然函数达到最大的参数值\(\hat{\theta}\)
在计算时候一般使用对数似然方程方法。