2023 年 12月 13 日随笔档案 - 合合技术团队

公告

2023年12月13日

【论文解读】System 2 Attention提高大语言模型客观性和事实性

摘要：本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型（LLM）中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中，这将对下一token的生成产生不利影响。为了帮助纠正这些问题，论文引入了System 2 Attention（S2A），它利用LLM的能力，用自然语言进行推理，并遵循指示，以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分，然后再处理重新生成的上下文以引出最终响应。在实验中，S2A在包含意见或不相关信息的三个任务：QA、数学单词问题和长形生成上优于标准的基于注意力的LLM，其中S2A增加了事实性和客观性，减少了虚假性。阅读全文

posted @ 2023-12-13 11:48 合合技术团队阅读(18) 评论(0) 推荐(0) 编辑

intsig

公告

2023年12月13日

【论文解读】System 2 Attention提高大语言模型客观性和事实性