LR - 解决分类问题

1.原理

逻辑回归(Logistic Regression,简称LR),它是一种评估事件发生概率的分类模型。线性回归与逻辑回归统称为广义线性模型,但普通的线性回归模型不能解决分类问题。逻辑回归模型是一种对数性模型,能够用于计算二分类问题。

​ 前提假设是样本符合伯努利分布。在逻辑回归模型里面,应用到一个很重要的函数(sigmoid函数),sigmoid函数能够将样本的预测值映射到0-1范围内,呈现出S型的分布。在进行分类判断时,设定一个概率的阈值,大于阈值则样本预测值为1,小于阈值则样本预测为0。

2.优缺点

优点:

  • (输出)模型输出即为样本的概率分布(落在0到1之间)
  • 能够输出表达式并且分析各个特征的权重;
  • (简单高效)在SPSS,Python中有许多现成的包能够调用,并且构建的模型可解释性高。
  • (多重共线性)L2正则化可以解决多重共线性问题

缺点:

  • 预测结果呈S型分布,两端的概率变化非常小,中间的概率变化十分剧烈,难以找到阈值;
  • 只能处理线性可分类的问题;
  • (精度)容易欠拟合

3.应用场景

LR擅长处理分类问题,例如:评论信息的正负情感分析、用户点击率、用户违约信息预测、垃圾邮件预测、疾病预测、用户等级分类等等。

4.延伸提问

1.线性回归和逻辑回归区别?

  • 线性回归是机器学习类算法中最简单的用特征预测标签数值的回归算法,满足线性规律的真实场景并不是很多,所以标准线性回归应用面有限。逻辑回归解决了线性回归实际应用中局限。导致它们解决问题能力不同,在于它们的模型不同。
  • 逻辑回归引入了sigmoid函数,这是一个非线性函数,增加了模型的表达能力。
  • 线性回归只能用于回归问题,逻辑回归用于分类问题(由二分类推广至多分类),简单区分,当响应变量是连续时使用线性回归,但当响应变量是分类时使用逻辑回归。
  • 线性回归使用最小二乘法作为参数估计方法,逻辑回归使用极大似然法作为参数估计方法。

2.逻辑回归对数据的分布有要求吗?

  • 逻辑回归的基本假设是数据服从伯努利分布。

3.如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎么样的影响?

  • 如果损失函数最终收敛,就算很多特征高度相关也不会影响分类器的效果。

    但是对特征本身来说,假设只有一个特征,在不考虑采样的情况下,将它重复100遍。训练以后,数据还是这么多,但是这个特征本身重复了100遍,实质上将原来的特征分成了100份,每一个特征都是原来特征权重值的百分之一。如果在随机采样的情况下,训练收敛完后,还是可以认为这100个特征和原来那一个特征扮演的效果一样,可能中间很多特征的值正负相消了。

4.为什么在训练过程中删去高度相关的特征?

  • 让模型的可解释性更好
  • 提高训练模型的速度

5.在进行逻辑回归之前,对特征进行离散化处理的好处?

  • 一方面,增加模型的泛化能力,减少噪声的影响:比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成了一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问。
  • 另一方面,简化模型,计算简单:稀疏向量%E8%A1%A8%E7%A4%BA%E3%80%82)内积乘法运算速度快,计算结果方便存储。

相关参考:

浅析机器学习:线性回归 & 逻辑回归

【机器学习】逻辑回归的适用场景及优缺点等

https://www.nowcoder.com/tutorial/10080/9a06bdda45f24ac0991bd8b5ad9ba22e

posted @ 2021-10-19 11:19  Rosaany  阅读(300)  评论(0编辑  收藏  举报