倾斜类误差度量 - 郑哲 - 博客园

倾斜类误差度量

癌症分类例子：

训练逻辑回归模型h_θ(x).(如果有癌症则为1，没有为0）

我们在测试集中得到1%的错误率,看起来不错

但是假如我们发现在测试集中只有0.5%的患者真正得了癌症因此在我们的筛选程序里

只有0.5%的患者患了癌症

只有0.5%的错误率，显然只考虑误差率不合适

因为你可能会获得一个很高的精确度非常低的错误率但是我们并不知道我们是否真的提升了分类模型的质量

因为总是预测y=0 并不是一个好的分类模型

但是总是预测y=0 会将你的误差降低至比如降低至0.5% 当我们遇到这样一个偏斜类时我们希望有一个不同的误差度量值或者不同的评估度量值其中一种评估度量值叫做查准率（precision）和召回率（recall）

但是现在假如我们希望在我们非常确信地情况下才预测一个病人得了癌症因为你知道

如果你告诉一个病人告诉他们你得了癌症他们会非常震惊因为这是一个非常坏的消息

而且他们会经历一段非常痛苦的治疗过程因此我们希望只有在我们非常确信的情况下 \

才告诉这个人他得了癌症

这样做的一种方法是修改算法我们不再将临界值设为0.5 也许我们只在 h(x)的值大于或

等于0.7 的情况下才预测y=1 因此我们会告诉一个人他得了癌症在我们认为他有大于

等于70%得癌症的概率情况下

posted on 2017-08-22 09:58 郑哲阅读(566) 评论(0) 编辑收藏举报

刷新页面返回顶部