癌症分类例子:

训练逻辑回归模型hθ(x).(如果有癌症则为1,没有为0)

我们在测试集中得到1%的错误率,看起来不错

 

但是 假如我们发现 在测试集中 只有0.5%的患者 真正得了癌症 因此 在我们的筛选程序里 

只有0.5%的患者患了癌症 

 

  只有0.5%的错误率,显然只考虑误差率不合适

因为你可能会获得一个很高的精确度 非常低的错误率 但是我们并不知道 我们是否真的提升了 分类模型的质量 

因为总是预测y=0 并不是一个 好的分类模型 

 

但是总是预测y=0 会将你的误差降低至 比如 降低至0.5% 当我们遇到 这样一个偏斜类时 我们希望有一个 不同的误差度量值 或者不同的评估度量值 其中一种评估度量值 叫做查准率(precision)和召回率(recall) 

 

 

但是现在 假如我们希望 在我们非常确信地情况下 才预测一个病人得了癌症 因为你知道 

如果你告诉一个病人 告诉他们你得了癌症 他们会非常震惊 因为这是一个 非常坏的消息

 而且他们会经历一段 非常痛苦的治疗过程 因此我们希望 只有在我们非常确信的情况下 \

才告诉这个人他得了癌症 

 

这样做的一种方法 是修改算法 我们不再将临界值 设为0.5 也许 我们只在 h(x)的值大于或

等于0.7 的情况下 才预测y=1 因此 我们会告诉一个人 他得了癌症 在我们认为 他有大于

等于70%得癌症的概率情况下

 

posted on 2017-08-22 09:58  郑哲  阅读(566)  评论(0编辑  收藏  举报