ReSearch：基于强化学习的大语言模型推理搜索框架

ReSearch是一种创新性框架，通过强化学习技术训练大语言模型执行"推理搜索"，无需依赖推理步骤的监督数据。该方法将搜索操作视为推理链的有机组成部分，其中搜索的时机与方式由基于文本的推理过程决定，而搜索结果进一步引导后续推理。研究分析表明，ReSearch在强化学习训练过程中自然地形成了高级推理能力，包括反思与自我纠正机制。