AIGC测试生成评估工具-ROUGE

一、ROUGE指标的使用

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)主要用于评估文本摘要的质量。它关注生成摘要中是否捕捉到了参考摘要的信息,即评估信息的完整性和涵盖程度。ROUGE指标的计算基于n-gram的共现情况,特别重视召回率(Recall)。

  1. 选择n-gram大小:根据需要评估的文本长度和复杂性,选择合适的n-gram大小(如1-gram、2-gram等)。较大的n-gram能够捕捉更长的短语结构,但可能对匹配的要求更高。
  2. 计算重叠情况:统计生成摘要中的n-gram在参考摘要中出现的次数,以及参考摘要中的总n-gram数。
  3. 计算召回率:使用公式“召回率 = 系统生成的n-gram匹配数 / 参考摘要中的n-gram总数”来计算召回率。
  4. 得出ROUGE得分:ROUGE得分即为计算出的召回率值。通常,还会使用ROUGE-1(1-gram召回率)、ROUGE-2(2-gram召回率)和ROUGE-L(最长公共子序列召回率)等多种变体来综合评估摘要质量。

二、BLEU指标的使用

BLEU(Bilingual Evaluation Understudy)主要用于评估机器翻译的质量。它侧重于衡量翻译输出与参考翻译之间的相似程度,即评估翻译的准确性和精确匹配程度。BLEU指标的计算基于n-gram的匹配程度,特别重视精确率(Precision)。

  1. 选择n-gram大小:与ROUGE类似,根据评估需求选择合适的n-gram大小。
  2. 计算n-gram匹配:对生成翻译和参考翻译进行n-gram切分,并计算它们之间的重叠个数(即匹配数)。
  3. 计算精确率:使用公式“精确率 = 生成翻译中的n-gram匹配数 / 生成翻译中的总n-gram数”来计算精确率。
  4. 应用短文本惩罚:为了防止短翻译在BLEU中得分过高,当生成翻译长度短于参考翻译长度时,应用短文本惩罚因子(BP)来调整精确率。
  5. 得出BLEU得分:使用公式“BLEU = BP * exp(1/n * (log(p1) + log(p2) + ... + log(pn)))”来计算BLEU得分,其中p1, p2, ..., pn是不同n-gram大小的精确率,n是n-gram的最大长度。

三、注意事项

  1. 参考翻译/摘要的选择:在AIGC测试中,应确保提供的参考翻译或摘要具有高质量和代表性,以准确评估生成文本的质量。
  2. 指标的综合使用:ROUGE和BLEU各有侧重,可以综合使用这两个指标来全面评估生成文本的质量。例如,在文本摘要任务中,可以同时使用ROUGE和BLEU来评估摘要的信息完整性和翻译准确性。
  3. 结果的解释:在解释ROUGE和BLEU得分时,应考虑任务的具体要求和背景知识。高分并不一定意味着完美的生成质量,因为这两个指标主要关注文本层面的重叠和匹配情况,而不涉及语义层面的评估。

 

ROUGE评估工具的具体使用方法:

一、ROUGE评估方法概述

ROUGE评估方法主要基于n-gram的共现信息来评价摘要的质量。它有多种变种,如ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S等,其中ROUGE-N是基于n-gram的共现信息评价,ROUGE-L是基于最长公共子序列(Longest Common Subsequence)的评价。

二、ROUGE评估指标的计算

  1. ROUGE-N:计算生成摘要和标准摘要中同时出现的n-gram的个数,然后除以参考摘要中出现的n-gram个数,得到召回率。例如,ROUGE-1计算的是1-gram(即单词)的召回率,ROUGE-2计算的是2-gram(即词对)的召回率。
  2. ROUGE-L:基于最长公共子序列(LCS)来计算摘要的相似度。它不需要连续匹配,而且反映了句子级词序的顺序匹配。ROUGE-L的F值(Flcs)是召回率(Rlcs)和准确率(Plcs)的调和平均,用于衡量摘要的相似度。

三、ROUGE评估工具的使用步骤

  1. 准备数据:收集一个多样化的文本数据集,包含需要评估的生成摘要和对应的标准摘要。
  2. 选择ROUGE版本:根据评估需求选择合适的ROUGE版本。ROUGE有多个版本,每个版本可能支持不同的评估指标和参数。
  3. 运行ROUGE工具:在命令行中运行ROUGE工具,并指定输入文件(包含生成摘要和标准摘要)以及评估指标。例如,如果要计算ROUGE-1和ROUGE-L的分数,可以使用以下命令(具体命令可能因ROUGE版本而异):
bash复制代码
  rouge <输入文件路径> -a -n 1 -l

其中,<输入文件路径>是包含生成摘要和标准摘要的文件的路径,-a表示输出所有评估指标的分数,-n 1表示计算ROUGE-1的分数,-l表示计算ROUGE-L的分数。

  1. 分析结果:ROUGE工具会输出每个评估指标的分数,包括召回率、准确率和F值等。根据这些分数可以评估生成摘要的质量,并与标准摘要进行比较。

四、注意事项

  1. 数据格式:确保输入文件的数据格式符合ROUGE工具的要求。通常,输入文件应包含两列,一列是生成摘要,另一列是标准摘要。
  2. 评估指标的选择:根据评估需求选择合适的评估指标。不同的评估指标可能反映摘要的不同方面,如召回率、准确率和词序等。
  3. 工具版本:注意ROUGE工具的版本更新,不同版本可能支持不同的评估指标和参数。确保使用与评估需求相匹配的版本。

 

常见的安装部署方式:

一、ROUGE 2.0的安装部署

ROUGE 2.0是一个用于自动文摘任务评价的工具包,它基于ROUGE系统指标来比较自动生成的摘要或翻译与一组参考摘要(通常是人工制作的)。ROUGE 2.0可以通过以下步骤进行安装部署:

  1. 获取项目文件:

  2. 项目结构:

    • src:包含项目的源代码文件。
    • main:主要执行逻辑所在的Java包。
    • model:模型相关的类定义。
    • util:辅助工具类。
    • lib:包含项目运行所需的所有第三方库的JAR文件。
    • pom.xml:Maven项目的构建配置文件,描述了项目的依赖关系和构建步骤。
    • docs:可能包含一些文档或者报告的说明。
    • test:测试代码存放区域。
  3. 编译与打包:

    • 在项目根目录下使用Maven命令进行编译和打包。
  4. 运行:

    • 通过调用Maven命令或直接执行编译后的JAR文件来运行ROUGE 2.0。
    • 具体的参数配置是依据ROUGE的命令行接口设计的,详细命令行参数需要参照项目的官方文档或帮助文档。
  5. 配置文件:

    • 配置文件主要影响ROUGE的行为,可能包括但不限于.properties结尾的配置文件,例如用于指定输出路径、停止词列表或语言处理选项的rouge.properties文件。
    • 用户可以根据需要创建自己的配置文件来调整ROUGE的行为。

二、ROUGE 1.5.5的安装部署(以Linux系统为例)

ROUGE 1.5.5是一个较为早期的版本,主要通过Perl脚本实现。以下是其在Linux系统下的安装部署步骤:

  1. 检查Perl版本:

    • 通过perl -v命令检查当前Perl版本,确保版本在5.6.0以上。
  2. 安装依赖模块:

    • 安装XML::DOM模块以及DB_File模块。XML::DOM的安装又需要XML::RegExp、XML::Parser、LWP::UserAgent和XML::Parser::PerlSAX模块。
    • 可以通过cpan或cpanm等Perl模块管理工具进行安装,或者通过解压压缩包并手动编译安装的方式。
  3. 设置环境变量:

    • 设置系统环境变量ROUGE_EVAL_HOME,指向ROUGE安装目录下词库data所在路径。
  4. 获取ROUGE文件:

    • 从可靠的来源获取ROUGE 1.5.5的压缩包,并解压到指定路径。
  5. 测试安装:

    • 运行ROUGE自带的测试脚本runROUGE-test.pl,检查输出是否正确,以验证安装是否成功。

三、Python包rouge-metric的安装

除了上述的ROUGE版本外,还有一个Python包rouge-metric提供了ROUGE评测指标的封装和API。以下是其安装步骤:

  1. 通过pip安装:

    • 在命令行中输入pip install rouge-metric进行安装。
  2. 测试安装:

    • 可以通过运行rouge-metric命令并指定测试用例来验证安装是否成功。
posted @   stronger_el  阅读(104)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示