常用的评价指标
分类问题
分类问题的标签是离散的,一般是无序且独立的。
分类问题可以细分为:
- 二分类问题
是指数据的标签只有两类,比如图片的猫狗识别,只有猫和狗两类。一般用 正样本(1) 和 负样本(0) 来分别表示这两类。 - 多分类问题
是指数据的标签有多类,比如阿拉伯数字识别,需要根据图片来识别这个数字是 0 至 9 的哪个数字。这是一个 10 分类问题,用 0 至 9 分别表示这 10 个类别。
前面的问题,输出都是某个标签,这些标签是互斥的,比如在猫狗识别的例子中,某图片要么是猫要么是狗。但有的问题的输出不是互斥标签。
- 多标签分类问题
比如一个文档相关的话题. 一个文本可能被同时认为是宗教、政治、金融或者教育相关话题。
ACC准确率:
准确率=
预测的样本数
预测对的样本数
混淆矩阵
其中 T 和 F 分别表示 true
和 false
,表示预测的是否准确。 P 和 N 分别表示 positive
和 negative
,分别表示预测为正样本和负样本。根据混淆矩阵,查准率和查全率的公式定义如下:
Precession
Recall
F1
ROC和AUC
排序问题
MAP
MRR
NDCG
参考资料:
Enlighten AI · 机器学习