10.10

LLM在长上下文RAG中的不同失败模式
为评估生成模型在处理长上下文长度时的失败模式，我们对OpenAI的o1和Gemini 1.5 Pro进行了分析，使用了与我们之前博文相同的方法(https://www.databricks.com/blog/long-context-rag-performance-llms)。我们提取了各个模型在不同上下文长度下的回答，并手动检查了多个样本，基于观察结果定义了以下广泛的失误类别：
重复内容（repeated_content）:当模型的回答完全由重复的（无意义的）单词或字符组成。

随机内容（random_content）:当模型生成的回答完全随机，与上下文无关，或者没有逻辑性或语法合理性。

未遵循指令（fail_follow_inst）:当模型未理解指令的意图或未遵循问题中指定的指令。例如，当指令要求基于上下文回答问题时，模型却尝试总结上下文。

空响应（empty_resp）:生成的回答为空

错误答案（wrong_answer）:当模型尝试遵循指令，但给出的回答错误。

其他（others）: 失误不属于上述列出的任何类别。

posted @ 2024-11-25 08:24 SDGVSBGDRH 阅读(57) 评论(0) 收藏举报

刷新页面返回顶部

liyize

10.10

公告