NLP评价性能指标

基于综述Survey on deep learning with class imbalance，以及网上找到的一些博客，总结一下NLP任务中的常用性能指标，主要以分类任务为准。

正确率和错误率是在评估分类结果的时候最常用的指标。但是当处理类不平衡问题时这两个指标都是不充分的，因为实验结果由数据多的类所决定，也就是负类。当数据集中正类所占的比例只有1%时，一个把所有数据归为负类的分类器可以到达99%的准确率。当然，这样一个模型是没有实际价值的。

正确率（Precision）、召回率（Recall）、选择率（Selectivity）

正确率Precision衡量在标记为正类的样本中确实是正类的比例。正确率对于类不平衡数据敏感因为它考虑到了负样本中被不正确地标为正类的数量（FP）。但是只用正确率一个指标是不充分的，因为它完全没有考虑正样本中被不正确地标为负类的数量（FN）。

召回率Recall也叫做TPR（Ture Positive Rate），用于衡量正类样本中被模型正确标记为正类的比例。召回率不会受不平衡影响因为它只取决于正类。召回率没有考虑到负样本中被标记为正样本的数量，这在处理有许多负样本的类不平衡数据时会出现问题。

正确率和召回率之间是一个权衡，性能指标的重要性随着问题不同而变化。正确率以模型标记的正类为底，召回率以实际标签标记的正类为底。

选择率（Selectivity）也叫做TNR(True Negative Rate)，衡量负类样本中被模型正确标记为负类的比例。相当于负类的召回率。

F1值（F-Measure）、G-Mean、Balanced Accuracy

F-Measure，也叫做F1值，用调和平均数结合了正确率和召回率，系数β用于调整正确率和召回率的相对重要性。β一般取1。
G-Mean，用平方根结合了TPR和TNR来衡量性能。
Balanced Accuracy也结合TPR和TNR来计算指标以使得模型对于数据少的类更加敏感。

ROC、AUC、PR曲线

ROC

ROC（receiver operating characteristics）曲线，它绘制了TPR（召回率）和FPR（False positive rate，FPR=FP/(FP+TN)）之间的关系，每个点的横坐标是FPR，纵坐标是TPR，从而创建了一个描绘被正确分类的正样本（TP）和被错误分类的负样本(FP)之间的权衡的可视化图像。

对于二值分类问题，实例的值往往是连续值，我们通过设定一个阈值，将实例分类到正类或者负类（比如大于阈值划分为正类）。因此我们可以改变阈值，根据不同的阈值进行分类，根据分类结果计算得到ROC空间中相应的点，连接这些点就形成ROC curve。因此对于产生连续概率的模型，阈值可用于在ROC空间创建一系列的点来形成ROC曲线。