机器学习知识点查漏补缺(逻辑回归)
一、模型概念
逻辑回归将线性函数复合于逻辑斯蒂函数中,用其取值估计分类概率,从而在空间形成超平面对样本点进行分类。
Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值 ,这个比值就是一个缓冲,将取值范围扩大,再进行对数变换,整个因变量改变。不仅如此,这种变换往往使得因变量和自变量之间呈线性关系,这是根据大量实践而总结。所以,Logistic回归从根本上解决因变量要不是连续变量怎么办的问题。还有,Logistic应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。
以上提到的都是二分类问题,在多分类问题中,讲逻辑斯蒂函数替换成softmax函数,softmax函数如下
对softmax函数的理解:sigmoid将一个实数值(逻辑回归模型中就是线性函数计算结果)映射到(0,1)的区间(当然也可以是(-1,1)),这样可以用来做二分类。
而softmax把一个k维(每个维度为每个类别的线性函数计算结果)的向量(a1,a2,a3,a4….)映射成一个(b1,b2,b3,b4….)其中bi是一个0-1的常数,然后可以根据bi的大小来进行多分类的任务,如取权重最大的一维。当然bi累计和为1。
二、目标优化函数
对于概率模型,采用对数最大似然函数作为目标优化函数: