逻辑回归问题(Logistic Regression)

  逻辑回归算法是分类算法,它适合于标签 y 取值离散的情况

假说表示

  在分类的问题中,我们需要什么样的函数来表示我们的假设,例如我们在做分类的时候,希望我们的分类器的输出值在0~1之间,因此,我们希望满足某个性质的假设函数,这个性质是该函数的预测值在 0~1之间。

  

   例如上图给出的乳腺癌分类问题,我们希望可以用线性回归的方法求出适合数据的一条直线,但由于线性回归模型只能预测连续的值,但是对于二分类问题,我们只需要输出 0 或 1 ,所以我们可以定义:

  

 

 

   对于上图所示的数据,线性回归似乎能很好的完成分类问题。但是,假设我么你现在又观测到一个非常大尺寸的恶性肿瘤,将其作为一条直线加入到我们的训练集中来,则我们会得到一条新的直线,这时候在使用 0.5 作为阈值似乎并不合理,并且线性回归模型的值可以超过 [ 0,1 ] 的范围,所以线性回归模型并不符合。

 

  因此,我们引入一个新的模型。逻辑回归模型,该模型的输出范围始终在 0~1 之间。逻辑回归模型的假设为:

 

 

 

  其中 X 代表特征向量 ,g 代表逻辑函数,其公式为:

 

 

  该函数的图像为:

 

 

   对于逻辑回归模型 hΘ(x) 的理解为,给定输入的变量,根据选择的参数计算输出变量等于 “ 1 ” 的可能,即:

 

  例如:,则说明有 70% 的可能 y 为正类。

决策边界

 

   

 

   在逻辑回归预测中:

 

  并且根据图像我们可以看出:

 

   现在我们有一个模型:

 

   并且参数Θ为 [ -3,1,1 ] 时 ,则当: -3 + x1+x2 >= 0 时,模型将预测 y=1,所以,我们可以绘制  x1+x2 = 3 这条直线作为我们的分界线

  

 

  但是当数据是这个样子的时候,怎样选择模型?

  

 

   则我们需要曲线方程来进行区分,例如:

  

 

  即我们可以用非常复杂的模型来适应形状非常复杂的判定边界。

 

 

 

 

   

 

posted @ 2020-11-09 22:19  胡~萝~卜  阅读(743)  评论(0编辑  收藏  举报