REACT:SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS 论文复现

实验包括：推理任务+决策任务

关注的现象：
准确率
Appendix的内容

实现的疑点：
P5的“Combining Internal and External Knowledge”和“Finetune”是什么意思？
P15里的“IM-Style”？

我的问题：（纵观之）
1.如何实现评估指标的测量？
对于reasoning数据集，benchmark数据有响应变量

思维链：
observation的概念是什么？
在概念上理解为环境条件，但是实现时发现是作为LLM的语言输出。

论文的观点：结合推理和行动可以得到更优的效果

分论点：
1.推理reasoning对于行动acting的指导作用（在推理任务上ReAct优于Act）
2.reasoning对于more informed acting的作用？（不懂prompting和finetuning实验的区别？）
3.ReAct和CoT的对比
4.CoT幻觉严重
5.行动和观察提升了ReAct的明智性groundedness和可信度trustworthiness，但是也减少了形成推理的灵活性，使得ReAct的准确度反而不如CoT。（这样就明白了为什么还要设置ReAct+CoT的实验，因为光有ReAct好像效果还不够）
6.对于ReAct来说，成功检索到外界信息很关键

主干问题：实验能否得到论点？是否可以设置别的实验来进行论证？

细节：
实验
setting:
1.ReAct与CoT-SC的转换
2.Action空间
3.prompt和finetune设置

object:
ReAct，Act，CoT，ReAct-IM，Standard。

list：
1.推理任务：HotPotQA和FEVER的实验
2.决策任务：ALFWorld和WebShop的实验

发现：
其实也不一定要复现，就是单看实验部分也会有很多想法。

posted @ 2024-09-15 16:34 张扬zy 阅读(177) 评论(0) 收藏举报

刷新页面返回顶部

REACT:SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS 论文复现

公告