使用思维链（Chain-of-thoughts）提示在大型语言模型中引出推理

语言模型(LM)在NLP领域的发展速度非常快，特别是在大型语言模型(LLM)方面：当语言模型具有大量参数或权重/系数时，它们被称为“大型”。这些“大型”语言模型拥有处理和理解大量自然语言数据的能力。

LLM被用于一系列自然语言任务，如文本摘要、情感分析、主题分类、语言翻译、自动完成等。扩展LM的一些广泛的好处包括提高性能、泛化和效率，虽然这些模型执行的大多数任务都受益于扩展，但像算术、常识和符号推理这样的任务在扩展模型时没有看到性能的提高。

这就引出了“思维链提示”的方法，通过生成一系列中间推理步骤或思维链来提高法LLM 的复杂推理能力。这种方法基于两个想法：1、考虑到LM可以被训练来生成自然语言的中间步骤，增加自然语言的基本原理可能是一个额外的好处；2、当通过上下文少样本方法提示时，LLM在问答任务中取得了显著的成功。但在实践中，为训练训创造大量的理由是费时费力的。所以将这两种思想结合起来，就产生了一个模型，只要有几个由<input, chain-of-though, output>三元组组成的提示，模型的性能会得到改善。

完整文章：

https://avoid.overfit.cn/post/f281ad2e54614d029c8061cc693376ed

posted @ 2023-05-08 09:50 deephub 阅读(103) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

使用思维链（Chain-of-thoughts）提示在大型语言模型中引出推理

公告