Agent Chatting Group

学习笔记

Ref: 把奇奇怪怪的AI角色都拉到一个群里，他们之间会聊些什么呢？复旦肖仰华团队和小红书团队联手推出AgentGroupChat，致力于为Agent群聊打造通用框架

[Submitted on 20 Mar 2024 (v1), last revised 4 Apr 2024 (this version, v2)]

AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior

Zhouhong Gu, Xiaoxuan Zhu, Haoran Guo, Lin Zhang, Yin Cai, Hao Shen, Jiangjie Chen, Zheyu Ye, Yifei Dai, Yan Gao, Yao Hu, Hongwei Feng, Yanghua Xiao

Repo: https://github.com/MikeGu721/AgentGroup

香农熵本身是评估系统混乱程度的一个指标，熵越高则越混乱，我们突发奇想地使用香农熵来评估角色之间的对话内容是不是足够多样，或者是否出现了意想不到的行为（涌现现象）。

一、框架概述

1.1 Character

在Agent Group Chat模拟中，角色是核心元素，他们可以独立地与环境中的所有对象（Character、Resource、Information）进行互动。每个角色都会被赋予一个独特的身份和性格设定，这些设定将影响角色的行为和决策。

为了满足各种群聊场景的需求，Agent Group Chat中的角色分为两大类：主要角色（Principle Character, PC）和非主要角色（Non-Principle Character, NPC）。

PC是群聊的主要参与角色，拥有明确的游戏目标，而NPC则是辅助参与的角色，没有明确的游戏目标。并且，仅PC才有资格主动与任何角色进行私聊，NPC仅在被PC选中时才能进行私聊。

1.2 Resource

在Agent Group Chat中，resource 主要有两个作用：

一是为角色之间的对话提供话题，

二是为持有该资源的角色提供社会身份和影响力。

每个资源都有四个字段进行描述，分别表示：所有者(Owner)、影响力(Impact)、可以提供的话题(Topic) 和 关于该资源的介绍(Description)。

资源可设定为辩论话题，此种情形下，资源不需指定 “所有者”与“影响力”，仅作为提供不同话题与描述的媒介。而在特定的群聊背景下，角色可争夺资源，以及通过影响力大小判定资源价值。

1.3 Progress

Agent Group Chat的游戏进程主要分为五个阶段：

(1) Update Stage

在这个阶段，所有角色会根据聊天的内容，更新自己对所有其他角色的好感度、更新自己对环境的判断、以及规划自己在新一轮要做的行为。

同时，根据游戏轮数，判断是否结束游戏，如果没有结束游戏，则继续聊天阶段，如果结束游戏则进入结算阶段。

(2) Private Chatting

这个阶段主要包含了不同角色之间进行私底下对话，并且其他角色是不知道这两个角色是否进行过私聊的。私聊不可见的设定满足于一般的群聊设定。

每个阵营的PC会根据影响力的由高到低依次进行行动（相同时则进行随机选择）。行动主要包括：1. 选择需要对话的另一个游戏角色，2. 以及进行具体的对话内容。

(3) Confidential Meeting

这个阶段主要包含了不同角色之间进行私底下对话，并且其他角色是知道这两个角色是否进行过私聊的。私聊可见的设定满足一些特殊的模拟需求，比如商业竞争中，某些角色之间的会晤可能是众所周知的，但他们的具体对话内容是只有他们两个角色自己知道。

(4) Group Chatting

这个阶段主要是让每个角色可以选择是否要对所有其他角色讲话，以及讲什么。Group Chat可能会进行多轮，每轮每个角色发言的内容，将会在该轮结束之后对所有角色可见。一轮内，每个阵营的PC会根据社会影响力的由高到低依次进行行动(相同时则进行随机选择)。

(5) Settlement Stage

为了涵盖尽可能多的群聊目标，结算阶段会包含两个内容：

第一个会让LLM对所有角色的讨论内容进行总结。

第二个会让不同角色对哪个角色赢得游戏进行投票。票包含了四种规则：

1. 只知道自己应该知道的信息，且能投给自己；
2. 只知道自己应该知道的信息，且不能投给自己；
3. 知道所有信息，且能投给自己；
4. 知道所有信息，且不能投给自己。

二、智能体结构

本文将专门为Agent Group Chat这个虚拟场景设计的Agent称为 Verb Strategist Agent (VS Agent)，以体现这类 Agent在该虚拟场景中的 语言博弈能力，

它主要由两个模块构成，即Persona和Action。

- 2.1 Persona是 VS Agent (动词战略家代理人) 的内在设定，

- 2.2 Action 包含了VS Agent 与 Agent Group Chat Simulation 可能会发生的所有交互。

2.1 Persona

Agent 的 Persona是其个性和决策过程的核心，包含以下四个组成部分：

Scratch：代表角色的基本设定，包括性格和目标。这是角色定义的核心，一旦设定，在游戏过程中不可更改，确保角色行为的一致性。
Belief：反映角色的信念系统及其对不同信念的评分。虽然是由人工设定的，但Belief是动态的，能够根据游戏环境的变化调整，从而模拟角色的心理变化。
Memory：记录角色在游戏中的经历和思考，为不可逆的时间线。它仅允许添加新内容，不允许删除或修改，从而保证了角色行为的历史连贯性。
Relationship：描述角色对其他角色的情感态度，以及角色对其他角色关系的推断。角色对其他角色的情感态度会影响决策，而角色对其他角色之间的情感关系推测也会影响其对环境的理解及决策。所有的关系以二维矩阵形式展现，其中的元素可以是自然语言描述或数值，表达角色对不同关系的理解和预测。

2.2 Action

每个角色总共会进行六种行为，分别是Perceive, Choose, Speak, Summary, Reflect, Vote。而这六个Action 所产生的记忆流如图所示。

(1) Perceive 察觉、理解

Perceive 主要包含了根据过去几轮的reflection结果，让角色重新理解环境，并总结自己的行动规划。该计划将详细指导Agent在不同游戏阶段的行为，考虑如何与其他角色互动、参与对话、影响他人等，确保每一行动均服务于其设定的目标和角色性格。

(2) Choose

Choose 只会在 private chatting 和 confidential meeting 阶段需要，目的在于挑选自己的对话对象、以及制定进一步的对话方案。此处的对话方案相较于Perceive阶段的规划而言，需要更加细致。

(3) Speak

Speak 是Agent和其他Agent交互的主要表现形式，会在 private chatting、confidential meeting 和 group chatting 阶段中使用，主要是根据自己的规划和该阶段中已经发生的对话内容来生成下一轮的对话信息。

(4) Summary

Summary 是在每一轮对话之后发生的，其存在的意义在于总结对话内容，从而减少后面 reflection 中所需要输入的上下文长度，同时对于对话内容进行初步的凝练和思考。

(5) Reflect

Reflection 是游戏后的自我评估阶段，会发生在Update Stage。角色会总结上一轮游戏中发生的事情，进行反思，并将反思更新到自己的memory之中从而指导下一轮游戏的进行。

同时，Reflect行为还会调整Relationship矩阵，以及更新其Belief。如果游戏是第一轮进行，角色则不会进行反思，但会根据自己接收到的信息，对于其他所有角色赋予初始的关系预测。这一过程是角色适应和学习的体现，确保角色在游戏中的逐渐成长和适应。

(6) Vote

Vote行为会发生在settlement阶段，主要目标是为判断该轮讨论的获胜者提供一个佐证。

(7) Think

就让Agent干啥之前都先想想——这块儿说实话，作用比较小【但有效果】！！后续我们的研究在GPT的经费这块会比较短缺，应该会把这个模块给删咯 hhh~

三、设定的故事

(1) Succession

基于HBO电视剧《Succession》，围绕说服商业大亨Logan Roy更改娱乐公司继承权的博弈。角色分为防守、中立及进攻阵营，通过“合作”与“竞争”来争取目标。游戏胜负根据Logan Roy的决定以及其他角色的支持情况判定。

(2) Judicial Debates

改编自Fuji TV电视剧《Legal High》，以一场模拟法庭博弈为核心，讲述加油站员工被控谋杀案。角色分为检方、辩护及中立阵营，通过策略和证据争取胜利。游戏胜负由辩护成功与否决定。

(3) Philosophical Discourses

围绕“人工智能对人性的影响”这一主题，展开不同时代的哲学家之间的辩论。角色持正反观点，通过思想碰撞和辩论交流，没有固定胜负，旨在观察涌现的新颖观点。

(4) Movie Star Selection

故事基于电影选角背后的竞争，特别是围绕Steven Spielberg新电影《时光渡者》的主演选择。角色分为不同阵营，目标是成为电影主演或说服其他角色支持。游戏胜负看进攻方角色是否能说服Spielberg选定他们为主演，同时探讨Spielberg的最终选择。

评估 - 有意义的涌现行为

可见 Memory + Group Chatting 的重要性。

因此我们推测，在保证Agent行为是可靠的，熵尽可能地小，才会带来更加有意义的涌现行为。

posted @ 2024-05-04 09:44 郝壹贰叁阅读(61) 评论(0) 编辑收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston