训练的评估函数

分类任务

import numpy as np
import evaluate

metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

logits 是模型的输出

labels是真实标签

用 numpy 的 argmax 函数沿着最后一个维度（即每个样本的类别维度）找到分数最大的索引，这些索引即为模型的预测类别

返回准确率

生成任务

BLEU、ROUGE、METEOR 等，这些指标用于比较生成的文本和参考文本

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）分数是一组常用的文本生成评估指标，广泛应用于机器翻译、文本摘要、文本生成等自然语言处理任务中。

ROUGE 分数通过比较生成的文本（如机器生成的摘要）与参考文本（如人类编写的摘要）之间的重叠程度，来评估生成文本的质量

posted on 2024-09-02 04:41 黑逍逍阅读(86) 评论(0) 收藏举报

刷新页面返回顶部

训练的评估函数

分类任务

生成任务

公告