作业六 逻辑回归

  1. 用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?

逻辑回归是预测结果是界于0和1之间的概率,可以适用于连续性和类别性自变量,容易使用和解释。

逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。

  1. 自述一下什么是过拟合和欠拟合?

过拟合:太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,训练样本的得到的输出和期望输出基本一致,但是样本输出和测试样本的期望输出相差却很大

欠拟合:样本不够或者算法不精确,测试样本特性没有学到,不具泛化性,拿到新样本后没有办法去准确的判断,欠拟合比较好理解就是模型简单或者说语料集偏少、特征太多,在训练集上的准确率不高,同时在测试集上的准确率也不高,这样如何训练都无法训练出有意义的参数,模型也得不到较好的效果,这个优缺点就不说了,基本上欠拟合就选择合理的模型,合理的特征,提高训练集就行。

3.思考一下逻辑回归的应用场景有哪些?

Logistic回归的主要用途:

 

寻找危险因素:寻找某一疾病的危险因素等;

预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;

判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。

逻辑回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

其诞生的领域就是医疗领域,主要涉及的包括疾病的诊断(即该病人是否患病),和疾病的发生概率等。此外,由于近些年机器学习领域的发展,这类模型也被使用在分类、预测等领域。

posted @ 2020-04-23 12:52  董学沉啦  阅读(225)  评论(0编辑  收藏  举报