Spark ML 中逻辑回归算法的分类阈值设置说明

Spark中的分类算法中总有分类阈值这个参数。

分类阈值用来调整预测的概率大小，算法会计算出每条预测数据属于哪个类别的概率p，将该条数据预测为p/t的最大值下表的类别（下标从0开始）。

类别标签有几个值，也就是几个类别，阈值需要有几个值。如果是二分类，则分类阈值就有两个值，如果是三分类，则分类阈值就有三个值。

例如分类标签有三个类别 0、1、2，假设算法计算出一条数据属于这三个类别的概率p=[0.1, 0.5, 0.4]，则最大概率值的下标是1，则这条数据初始的类别是1 （下标从0开始）。

假设这三个类别的分类阈值分别设置为t=[0.1, 0.2, 0.04]，那么 p/t=[1, 2.5, 10] 的最大值的下标是2，则这条数据最终的类别是2。p/t是p与t的对应值相除。

这样，就把初始的类别1调整为最终的类别2。

可见，如果想把哪个类别的预测结果变多，那么把该类别的分类阈值变小。

如果分类阈值设置全都相等，例如都为t=[1, 1, 1] ，则相当于没有做调整。

posted @ 2022-04-24 11:10 干了这瓶老干妈阅读(439) 评论(0) 编辑收藏举报

刷新页面返回顶部

成长小港