思维链 (Chain-of-thought，CoT)

思维链提示 (Wei 等, '22): https://arxiv.org/abs/2201.11903
Let’s think step by step: https://arxiv.org/abs/2205.11916
CoT 图解示例 (Chung 等, '22): https://arxiv.org/abs/2210.11416
CoT 微调也显示出对无害性非常有效 (Bai 等, '22): https://www.anthropic.com/constitutional.pdf

思维链 (Chain-of-thought，CoT) 提示 (Wei 等，'22) 是指令示范的一种特殊情况，它通过引发对话代理的逐步推理来生成输出。使用 CoT 微调的模型使用带有逐步推理的人工标注的指令数据集。这是 Let’s think step by step 这一著名提示的由来。下面的示例取自 Chung 等，'22，橙色高亮的部分是指令，粉色是输入和输出，蓝色是 CoT 推理。

如 Chung 等，'22 中所述，使用 CoT 微调的模型在涉及常识、算术和符号推理的任务上表现得更好。

如 Bai 等，'22 的工作所示，CoT 微调也显示出对无害性非常有效 (有时比 RLHF 做得更好)，而且对敏感提示，模型不会回避并生成 “抱歉，我无法回答这个问题” 这样的回答。

CoT 微调提高了模型在需要逐步思考的任务上的性能，并使它们在敏感话题上不那么回避。

CoT的主体思想其实很直白；为了教会LLM模型学会推理，给出一些人工写好的推理示例，示例里把得到最终答案前，一步步的具体推理步骤说清楚，而这些人工写的详细推理过程，就是思维链Prompting，具体例子可参照上图中蓝色文字部分。

CoT的意思是让LLM模型明白一个道理；就是在推理过程中，步子不要迈得太大，否则很容易出错，改变思维模式，化大问题为小问题，步步为营，积小胜为大胜。

最早明确提出CoT这个概念的文章是“Chain of thought prompting elicits reasoning in large language models”，论文发布于22年1月份，虽然做法很简单，但是应用CoT后LLM模型的推理能力得到了巨大提升，GSM8K数学推理测试集准确率提高到60.1%左右。

当然，这种给出详细推理步骤和中间过程的思想，并非CoT最早提出的，更早一些的“scratchpad”技术（可参考：Show Your Work: Scratchpads for Intermediate Computation with Language Models）首先采用了类似的思路。

CoT提出不久，很快在22年3月份，一项被称为“Self-Consistency”的改进技术就将GSM8K测试集准确率提高到74.4%，提出这项改进的论文是“Self-Consistency Improves Chain of Thought Reasoning in Language Models”。

“Self-Consistency”的思路也很直观（参考上图）：首先可以利用CoT给出几个写了推理过程的示例，然后要求LLM对给定的问题进行推理，如果是CoT，直接输出一个推理过程和答案，整个过程就结束了。“Self-Consistency”则不然，它要求LLM输出多个不同的推理过程和答案，然后采用投票的方式选出最佳答案，思路非常简单直接，但是效果也确实好。

以上内容参考：

https://huggingface.co/blog/dialog-agents
公众号：AINLP
Hugging Face
知乎@张俊林

posted on 2023-02-21 10:20 宋岳庭阅读(2611) 评论(0) 编辑收藏举报