REACT:SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS 论文复现
实验包括:推理任务+决策任务
关注的现象:
准确率
Appendix的内容
实现的疑点:
P5的“Combining Internal and External Knowledge”和“Finetune”是什么意思?
P15里的“IM-Style”?
我的问题:(纵观之)
1.如何实现评估指标的测量?
对于reasoning数据集,benchmark数据有响应变量
思维链:
observation的概念是什么?
在概念上理解为环境条件,但是实现时发现是作为LLM的语言输出。
论文的观点:结合推理和行动可以得到更优的效果
分论点:
1.推理reasoning对于行动acting的指导作用(在推理任务上ReAct优于Act)
2.reasoning对于more informed acting的作用?(不懂prompting和finetuning实验的区别?)
3.ReAct和CoT的对比
4.CoT幻觉严重
5.行动和观察提升了ReAct的明智性groundedness和可信度trustworthiness,但是也减少了形成推理的灵活性,使得ReAct的准确度反而不如CoT。(这样就明白了为什么还要设置ReAct+CoT的实验,因为光有ReAct好像效果还不够)
6.对于ReAct来说,成功检索到外界信息很关键
主干问题:实验能否得到论点?是否可以设置别的实验来进行论证?
细节:
实验
setting:
1.ReAct与CoT-SC的转换
2.Action空间
3.prompt和finetune设置
object:
ReAct,Act,CoT,ReAct-IM,Standard。
list:
1.推理任务:HotPotQA和FEVER的实验
2.决策任务:ALFWorld和WebShop的实验
发现:
其实也不一定要复现,就是单看实验部分也会有很多想法。