混淆矩阵

混淆矩阵

True positive (TP):预测为正,实际值也为正

假阳性(FP):预测为正但实际值为负

真负(TN):预测为负,实际值也为负

假阴性(FN):预测为负但实际值为正

准确性 : **** 在所有课程中,您预测正确的有多少。准确度只是被正确识别的总样本的分数。在所有预测中给出正确预测的概率。
准确度=(TP+TN)/总计

精确 : **** 在我们预测为正面的所有类别中,有多少实际上是正面的。从总的积极预测中获得积极预测为正确的概率。
精度 = TP / (TP + FP)

当您有一个模型在预测 1 时开始某种业务工作流程(例如营销活动)时,精度非常有用。因此,您希望您的模型在它说 1 时尽可能正确,并且不要太在意什么时候它预测为 0。这就是为什么我们只看到混淆矩阵的第二列,它与等于 1 的预测有关。

精确度在营销活动中非常有用 ,因为营销自动化活动应该在预测用户将成功响应时开始对用户进行活动。这就是我们需要高精度的原因,也就是我们的模型在预测 1 时正确的概率。低精度值会使我们的业务亏损,因为我们正在联系对我们的商业报价不感兴趣的客户。

精度随着阈值的增加而增加,随着阈值的降低而降低 .随着阈值的增加,模型在对 1 进行分类时的限制性更强,这意味着假阳性错误会更少,而真阳性错误会更多。随着阈值的降低,模型在分类 0 时的限制性更强,这意味着假阳性错误会更多,而真阳性错误会更少。

召回率/灵敏度/真阳性率: 在所有实际的正类中,有多少是我们正确预测的。灵敏度是真阳性率(正确识别的阳性比例)。

召回率 = TP / (TP + FN)

当您必须正确分类一些已经发生的事件时,召回非常有用。 例如,欺诈检测模型必须具有高召回率才能正确检测欺诈。在这种情况下,我们并不关心真正的 0,因为我们只对尽可能多地发现真正的 1 感兴趣。所以,我们正在处理混淆矩阵的第二行。

如前所述,召回的常见用途是欺诈检测模型,甚至是对患者的疾病检测。如果有人生病了,我们需要发现他们的病情,避免出现假阴性。假阴性患者可能会传染,而且不安全。这就是为什么当我们必须发现已经发生的事件时,我们需要使用召回。

召回率随着阈值的降低而增加,随着阈值的增加而降低 .随着阈值的降低,模型在分类 0 时的限制性更强,这意味着假阴性错误会更少,而真阳性错误会更多。随着阈值的增加,模型在对 1 进行分类时限制性更强,这意味着假阴性错误会更多,而真阳性错误会更少。

特异性/真阴性率 :在所有实际的负类/值中,有多少我们预测正确。特异性是真阴性率(正确识别的阴性比例)。

特异性=TN/(TN+FP)

F 测量: 很难比较低精度和高召回率的两个模型,反之亦然。因此,为了使它们具有可比性,我们使用 F-Score。 F-score 有助于同时测量召回率和精度。它通过更多地惩罚极端值来使用谐波平均值代替算术平均值。它结合了准确率和召回率作为分类有效性的衡量标准。介于 0 和 1 之间。F 分数越高,模型越好。 F1 分数使用调和平均值结合了准确率和召回率。

F score=2RecallPrecision/Recall + Precision

混淆矩阵的问题

混淆矩阵的问题之一是填充的所有值都是基于阈值的任意选择。如果我们可以评估多个阈值并查看它们的影响会怎样。这可以通过使用 AUC ROC 曲线来完成。当您有不平衡的数据时,这些曲线还有助于确定阈值,因为它会显示多个阈值的结果,您可以根据图表最终确定阈值。

datascience #machinelearningalgorithms #deeplearningalgorithms #data #algorithms #deloitteusi #deloitteuniversity #intel #target #pwcindia #eyindia

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38508/35342113

posted @ 2022-09-21 13:36  哈哈哈来了啊啊啊  阅读(59)  评论(0编辑  收藏  举报