逻辑回归分类器(Logistic Regression Classifier)

Logistic regression (逻辑回归)是当前业界比較经常使用的机器学习方法,用于预计某种事物的可能性。也用来进行分类。

在分类的情形下,经过学习之后的LR分类器事实上就是一组权值w0,w1,...,wm. 
输入測试样本集中的測试数据时。这一组权值依照与測试数据线性加和的方式,求出一个z值:

z = w0+w1*x1+w2*x2+...+wm*xm。 ① (当中x1,x2,...,xm是某样本数据的各个特征,维度为m
之后依照sigmoid函数的形式求出:

σ(z) = 1 / (1+exp(z)) 

因为sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)

因此最主要的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数,每个样本点,都能够通过上述的公式①和②计算出其概率密度

LR分类器的关键问题就是求出这一组权值w0,w1,...,wm。这须要涉及到极大似然预计MLE和优化算法的概念。

一、逻辑回归模型

何为回归:回归事实上就是对已知公式的未知參数进行预计。比方已知公式是y = a*x + b,未知參数是ab

我们如今有非常多真实的(x,y)数据(训练样本),回归就是利用这些数据对ab的取值去自己主动预计。 

事实上Logistic Regression 就是一个被logistic方程归一化后的线性回归,仅此而已。

至于用logistic方程而不用其他,是由于这样的归一化的方法往往比較合理,可以打压过大和过小的结果(往往是噪音),以保证主流的结果不至于被忽视。


1.1逻辑回归模型



1.2极大似然函数



1.3 牛顿-拉斐森迭代法


注:逻辑回归分类器的Spark代码实现參照博客:Spark简单介绍第六章代码部分:http://blog.csdn.net/qustqustjay/article/details/46874071

posted @ 2017-06-07 20:38  jzdwajue  阅读(975)  评论(0编辑  收藏  举报