深度学习常用性能评价指标
前言
深度学习性能指标是用于评价深度学习模型性能的依据,是设计模型的重要依据。
基于准确度的指标
对于模型而言仅统计预测正确或错误的个数其意义有限,标准化的衡量具有更准确的参考价值。
准确率(Accuracy, ACC):判断正确的结果与所有观测样本之比,
A
C
C
=
T
P
+
T
N
T
P
+
F
P
+
F
N
+
T
N
ACC= \frac{TP+TN}{TP+FP+FN+TN}
ACC=TP+FP+FN+TNTP+TN
精确率(precision)或阳性预测值(Positive Predictive Value, PPV):判断正确的结果占预测为positive的比例,
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
Precision= \frac{TP}{TP+FP}
Precision=TP+FPTP
灵敏度(Sensitivity)或称召回率(Recall)或真阳率(True Positive Rate, TPR):模型预测正确的个数占真实值为positive的比例,
S
e
n
s
i
t
i
v
i
t
y
=
T
P
T
P
+
F
N
Sensitivity= \frac{TP}{TP+FN}
Sensitivity=TP+FNTP
特异度(Specificity)或选择率(Selectivity)或真阴率(True Negative Rate, TNR):判断正确的个数占真实值为Negative的比例,
S
p
e
c
i
f
i
c
i
t
y
=
T
N
T
N
+
F
P
Specificity= \frac{TN}{TN+FP}
Specificity=TN+FPTN
阴性预测值(Negative Predictive Value, NPV):判断正确的结果占预测为negative的比例,
N
P
V
=
T
N
T
N
+
F
N
NPV= \frac{TN}{TN+FN}
NPV=TN+FNTN
假阴率(False Negative Rate, FNR):判断错误的个数占真实值为positive的比例,
F
N
R
=
F
N
F
N
+
T
P
FNR= \frac{FN}{FN+TP}
FNR=FN+TPFN
假阳率(False Positive Rate, FPR):判断错误的个数占真实值为negative的比例,
F
P
R
=
F
P
F
P
+
T
N
FPR= \frac{FP}{FP+TN}
FPR=FP+TNFP
错误发现率(False Discovery Rate, FDR):预测错误的个数占预测值为positive的比例,
F
D
R
=
F
P
F
P
+
T
P
FDR= \frac{FP}{FP+TP}
FDR=FP+TPFP
错误遗漏率(False Omission Rate, FOR):预测错误的个数占预测值为negative的比例,
F
O
R
=
F
N
F
N
+
T
N
FOR= \frac{FN}{FN+TN}
FOR=FN+TNFN
威胁分数(Threat score, TS)或临界成功指数(critical success index, CSI):
T
S
=
T
P
T
P
+
F
N
+
F
P
TS= \frac{TP}{TP+FN+FP}
TS=TP+FN+FPTP
F分数(F-Score)是精度和召回率的调和平均值:
F
=
2
×
p
r
e
c
i
s
i
o
n
×
r
e
c
a
l
l
p
r
e
c
i
s
i
o
n
+
r
e
c
a
l
l
=
2
×
T
P
2
×
T
P
+
F
N
+
F
P
F= 2\times\frac{precision\times recall}{precision+recall}= \frac{2\times TP}{2\times TP+FN+FP}
F=2×precision+recallprecision×recall=2×TP+FN+FP2×TP
阳性似然比(Positive likelihood ratio, LR+):
L
R
+
=
T
P
R
F
P
R
LR+= \frac{TPR}{FPR}
LR+=FPRTPR
阴性似然比(Negative likelihood ratio, LR-):
L
R
−
=
F
N
R
T
N
R
LR-= \frac{FNR}{TNR}
LR−=TNRFNR
诊断优势比(Diagnostic odds ratio, DOR):
D
O
R
=
L
R
+
L
R
−
DOR= \frac{LR+}{LR-}
DOR=LR−LR+
接收者操作特征曲线(receiver operating characteristic curve, ROC)是坐标图式的分析工具,其横轴为FPR,纵轴为TPR。
曲线下面积(Area Under Curve, AUC)是ROC曲线下的面积。
平均精度(Average Precision, AP)是衡量精确率和召回率的一种指标,当Recall阈值从0增加到1时,Precision越高,AP越高。Precision-Recall曲线描述了Precision和Recall之间的关系。 好的模型应该改善Recall,同时将Precision保留相对较高的分数。 相反,较弱的模型可能会损失更多的Precision以改善Recall。 与Precision-Recall曲线相比,AP可以更直观地显示模型的性能。
基于排名的指标
平均倒数排名(MRR): MRR是衡量排名模型的常用指标。 对于目标查询,如果第一个正确的项目排在第n位,则MRR分数为1/n,一旦不匹配,则分数为0,模型的MRR是所有查询的分数之和。
Hits@K:通过计算所有真实元组的排名(例如MRR),Hits @ K是排名在前K位的正确实体的比例。
基于图数据的指标
归一化互信息(NMI)和模块度是用来评估图上社区检测(即聚类)性能的两个指标。NMI起源于测量两个变量之间相互依赖性的信息理论。在社区检测场景中,NMI用于度量两个社区之间的共享信息量(即相似性)。模块度被设计用来衡量一个图划分成簇的强度。具有高模块度的图在簇内节点之间具有密集连接,而在不同簇中节点之间连接稀疏。
图属性统计数据指标包括基尼系数、特征路径长度、分布熵、幂律指数和三角形计数。一些更多的图统计指标包括度排序、接近中心性排序、中介中心性排序和使用的聚类系数、最短路径长度、对角线距离。