论文阅读-Experiential Co-Learning of Software-Developing Agents

1. 摘要

软件开发领域，LLM智能体在合作、任务拆分、确保软件质量等方面有着不错的表现。
存在问题：现有的一些智能体不能从过去的经验中提升，导致重复犯错，以及在多部任务的执行中效率不高。
文章目标：从过去经验中获益，从而提升智能体在后续任务执行中的能力

文章提出了一种新的多智能体学习范式：Experiential Co-Learning。

方法中有两种角色：

涉及到3个核心模块：

本模块的目标：跟踪不同训练任务的程序轨迹

交流的过程可以建模为一个有向链，其中

我们观察到过去的轨迹并不一定会得到更好的解决方案。
因此，仅仅记录历史记录是不够的。我们将数据结构从链转化为精炼图，带有相同内容的节点会被映射到同一个节点（通过哈希函数\(\phi(\cdot)\)）。

每个节点会通过外部反馈获取一个评分。

其中，

和软件需求越接近的解决方案（所代表的节点），分数越高。

为了加速智能体的推理速度，我们还将通过启发式的方法发现非临界节点之间的捷径。

捷径需要携带信息(informative)，我们将连接两个非临界节点的且信息收益大于临界值\(\epsilon\)的边称为捷径(shortcut)。

为了利用过去的程序轨迹，两个智能体 Instructor 和 Assistant 分别积累了自己的经验库 experience pools（以键值对的形式存储）

本模块的设计目标是合并多个智能体收集的经验库，允许通过增强指令和解决方案进行沟通。

posted @ 2024-09-20 08:41 Frank23 阅读(102) 评论(0) 收藏举报

刷新页面返回顶部