逻辑回归分类器(Logistic Regression Classifier)

Logistic regression （逻辑回归）是当前业界比較经常使用的机器学习方法，用于预计某种事物的可能性。也用来进行分类。

在分类的情形下，经过学习之后的LR分类器事实上就是一组权值w0,w1,...,wm.
当输入測试样本集中的測试数据时。这一组权值依照与測试数据线性加和的方式，求出一个z值：

z = w0+w1*x1+w2*x2+...+wm*xm。 ① （当中x1,x2,...,xm是某样本数据的各个特征，维度为m）
之后依照sigmoid函数的形式求出：

σ(z) = 1 / (1+exp(z)) 。

②

因为sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。

因此最主要的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数，每个样本点，都能够通过上述的公式①和②计算出其概率密度。

则LR分类器的关键问题就是求出这一组权值w0,w1,...,wm。这须要涉及到极大似然预计MLE和优化算法的概念。

一、逻辑回归模型

何为回归：回归事实上就是对已知公式的未知參数进行预计。比方已知公式是y = a*x + b，未知參数是a和b。

我们如今有非常多真实的(x,y)数据（训练样本），回归就是利用这些数据对a和b的取值去自己主动预计。

事实上Logistic Regression 就是一个被logistic方程归一化后的线性回归，仅此而已。

至于用logistic方程而不用其他，是由于这样的归一化的方法往往比較合理，可以打压过大和过小的结果（往往是噪音），以保证主流的结果不至于被忽视。

注：逻辑回归分类器的Spark代码实现參照博客：Spark简单介绍第六章代码部分：http://blog.csdn.net/qustqustjay/article/details/46874071

posted @ 2017-06-07 20:38 jzdwajue 阅读(975) 评论(0) 编辑收藏举报

刷新页面返回顶部