癌症分类例子:
训练逻辑回归模型hθ(x).(如果有癌症则为1,没有为0)
我们在测试集中得到1%的错误率,看起来不错
但是 假如我们发现 在测试集中 只有0.5%的患者 真正得了癌症 因此 在我们的筛选程序里
只有0.5%的错误率,显然只考虑误差率不合适
因为你可能会获得一个很高的精确度 非常低的错误率 但是我们并不知道 我们是否真的提升了 分类模型的质量
但是总是预测y=0 会将你的误差降低至 比如 降低至0.5% 当我们遇到 这样一个偏斜类时 我们希望有一个 不同的误差度量值 或者不同的评估度量值 其中一种评估度量值 叫做查准率(precision)和召回率(recall)
但是现在 假如我们希望 在我们非常确信地情况下 才预测一个病人得了癌症 因为你知道
如果你告诉一个病人 告诉他们你得了癌症 他们会非常震惊 因为这是一个 非常坏的消息
而且他们会经历一段 非常痛苦的治疗过程 因此我们希望 只有在我们非常确信的情况下 \
这样做的一种方法 是修改算法 我们不再将临界值 设为0.5 也许 我们只在 h(x)的值大于或
等于0.7 的情况下 才预测y=1 因此 我们会告诉一个人 他得了癌症 在我们认为 他有大于