Spark ML 中逻辑回归算法的分类阈值设置说明

Spark中的分类算法中总有分类阈值这个参数。

分类阈值用来调整预测的概率大小,算法会计算出每条预测数据属于哪个类别的概率p,将该条数据预测为p/t的最大值下表的类别(下标从0开始)。

类别标签有几个值,也就是几个类别,阈值需要有几个值。如果是二分类,则分类阈值就有两个值,如果是三分类,则分类阈值就有三个值。

例如分类标签有三个类别 0、1、2,假设算法计算出一条数据属于这三个类别的概率p=[0.1, 0.5, 0.4],则最大概率值的下标是1,则这条数据初始的类别是1 (下标从0开始)。

假设这三个类别的分类阈值分别设置为t=[0.1, 0.2, 0.04],那么 p/t=[1, 2.5, 10] 的最大值的下标是2,则这条数据最终的类别是2。p/t是p与t的对应值相除。

这样,就把初始的类别1调整为最终的类别2。

可见,如果想把哪个类别的预测结果变多,那么把该类别的分类阈值变小。

如果分类阈值设置全都相等,例如都为t=[1, 1, 1] ,则相当于没有做调整。

posted @ 2022-04-24 11:10  干了这瓶老干妈  阅读(439)  评论(0编辑  收藏  举报
Live2D