分类任务

1
2
3
4
5
6
7
8
import numpy as np
import evaluate
 
metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

  

logits 是模型的输出

labels是真实标签

numpyargmax 函数沿着最后一个维度(即每个样本的类别维度)找到分数最大的索引,这些索引即为模型的预测类别

返回准确率

 

生成任务

BLEU、ROUGE、METEOR 等,这些指标用于比较生成的文本和参考文本

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数是一组常用的文本生成评估指标,广泛应用于机器翻译、文本摘要、文本生成等自然语言处理任务中。

ROUGE 分数通过比较生成的文本(如机器生成的摘要)与参考文本(如人类编写的摘要)之间的重叠程度,来评估生成文本的质量

 

 

posted on   黑逍逍  阅读(32)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!



点击右上角即可分享
微信分享提示