System 2 Attention：可以提高不同LLM问题的推理能力

推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力，但大多数llm经常被简单的错误绊倒，显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导，或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚，也就是说模型会更偏向与输入一致，而不管准确性如何。人们已经做出了各种努力来解决这些缺点，包括增加监督训练数据或应用强化学习方法。在最近的一项研究中，Meta AI认为问题的根源在于这些模型中使用的transformer 架构的基本设计，特别是注意力机制。这项研究的灵感来自丹尼尔·卡尼曼和阿莫斯·特沃斯基对行为心理学的研究，这些研究在《Thinking Fast and Slow》一书中得到了精彩的阐述。