多智能体协作，可与人类合作的Agent（Building Cooperative Embodied Agents Modularly with Large Language Models）

论文题目：Building Cooperative Embodied Agents Modularly with Large Language Models

论文链接：https://arxiv.org/pdf/2307.02485

用大语言模型模块化地构建具有合作能力的体验式智能体

大型语言模型（LLMs）在多智能体的协作和交流方面，我们还缺乏深入的了解。这些能力对于智能体的合作来说至关重要。

摘要

新颖的多智能体协作框架

本文提出了一个创新的框架，旨在探索和提升LLMs在多智能体协作方面的潜力。通过这个框架，体验式智能体

不仅能够更高效地规划和交流
而且能够在多样的环境中与其他智能体或人类携手合作
完成更为复杂的长期任务。

自发交流

它们能够在没有经过精细调整或仅凭借少量提示的情况下，自发地进行有效的交流。

信任与合作

使用自然语言交流的基于LLMs的智能体在与人类互动时能够建立起更深层次的信任。这种信任是高效合作的基石，能够让人类与智能体之间的协作更加流畅、有效。

引言：

大型语言模型在多代理体系中的协作与规划挑战

本文专注于探索LLM在构建能够与其他代理或人类合作完成复杂任务的协作代理实体方面的作用。我们考虑的是

一个需要两个代理共同合作以最快完成任务的多代理环境

在这样的环境中，成功的代理需要能够：

从观察中提取关键信息；
更新对世界和其他代理的信念；
决定何时以及如何沟通；
进行协作规划以实现共同目标。

我们提出了一个包含五个关键模块的新颖框架。这些模块共同解决多代理合作成功的关键方面：

信念模块：负责监控代理对环境和其他代理的理解。
沟通模块：利用LLM强大的自由形式对话生成和理解能力来决定沟通内容。
推理模块：综合其他模块提供的信息来决策高层次规划，包括沟通的时机。
规划模块：负责生成并选择执行策略以达到合作目标。
行动执行模块：将规划模块产生的策略转化为具体的行动序列，并执行这些行动以促进任务的完成。

该框架不需要进行任何微调或仅需极少提示即可在复杂的实体任务中实现合作。

我们在两个多代理合作任务上评估了我们的框架：

交流式监督帮助（C-WAH）
ThreeDWorld多代理运输（TDW-MAT）

实验结果显示，基于LLM的合作代理能够有效地进行规划、沟通并与其他代理或人类合作完成长期任务。例如，如图1所示的代理能够利用有效沟通来与合作伙伴分工。特别是，通过利用GPT-4等最新大型语言模型的知识和推理能力，我们的方法不仅超越了基于规划的基线方法，还展现了高效沟通的能力。

此外，在用户研究中，我们发现使用自然语言与人类沟通的基于LLM的代理更容易获得信任。总而言之，本文的主要贡献如下：

我们是首次系统地研究LLM在实体多代理合作中的规划和沟通能力。
我们提出一个新颖的框架，利用LLM来构建协作代理，这些代理在复杂任务中表现出色，超越了传统的基于规划的方法。
我们的用户研究评估了基于LLM的智能体与人类进行有效和可信合作的潜力。

在这里插入图片描述

问题设置

在这个问题设置中，我们面临的主要挑战是在一个动态变化的环境中实现有效的多代理协作。代理需要通过有限的观察来理解整个环境的状态，并且需要与其他代理沟通信息来共同推进任务。由于每个代理的观察是部分的，它们必须学会如何根据局部信息作出决策，并通过通信来补充其他代理的知识盲区。

为了应对这些挑战，代理必须具备以下几个能力：

感知与理解：代理必须能够从其观察中提取出关键的信息，并通过这些信息理解当前环境的状态以及任务的进展情况。
沟通与协调：代理需要决定何时以及如何与其他代理沟通，以共享信息和计划，确保所有代理对任务的理解和目标是一致的。
决策与规划：代理需要能够制定并执行规划策略来完成子目标，并最终达成长期目标。这些策略需要能够适应环境的变化和其他代理的行动。
适应与学习：由于环境和任务可能会变化，代理需要能够从经验中学习并适应新情况，以提高其决策和规划能力。
合作与分工：代理需要能够识别并执行分工，以高效地协作完成复杂的任务，这通常涉及到每个代理在不同子目标上的专注和努力。

五个模块

本文提出的框架的整体模块化结构如图所示。最后，规划模块根据高级计划给出要采取的原始动作。

在这里插入图片描述

观察模块：感知环境的“眼睛”

在合作智能体的世界里，从环境中准确抓取信息至关重要。观察模块就像智能体的眼睛，它负责捕捉环境中的原始数据，然后提炼出对后续任务至关重要的高层次信息。它能够识别视觉场景中的物体、它们的关系，以及智能体的位置等。无论是处理符号数据还是解析自我中心的视觉输入，观察模块都能娴熟地进行。

信念模块：构建内在的世界理解

智能体没有固有的记忆功能来存储先前的观察和交互。怎样有效地维护对环境和其他智能体的持续认知呢？这就是信念模块的作用。它帮助智能体追踪任务进展、自身状态、其他智能体的状态，以及场景记忆。这个模块不仅存储信息，还能进行更新和修正，确保智能体的世界理解与实际情况尽可能一致。

沟通模块：智能体间的桥梁

有效的沟通是合作智能体不可或缺的技能。沟通模块解决了“发送什么”和“何时发送”的关键问题。我们使用大型语言模型直接作为消息生成器，通过精心设计的提示，约束生成内容，确保信息的相关性和实用性。通过在对话历史中植入种子消息，进一步引导智能体之间的有效沟通行为。

推理模块：解决问题的“大脑”

合作智能体需要综合考虑自身状态、他人的信息，以及收到的消息来制定行动计划。推理模块正是这样一个“大脑”，它依托于大型语言模型，利用设计好的提示来整合所有信息，生成行动策略。我们甚至采用了零示范思维链提示技术，鼓励模型进行更深入的思考，以得出最佳的行动方案。

规划模块：行动的“蓝图”

面对复杂任务，我们需要模块化的方法。大型语言模型虽然擅长制定高层计划，但在具体的低层控制上却常常力不从心。规划模块的职责，就是将这些高层计划转化为具体、可执行的低层动作。我们设计了一个启发式的低层规划器，使得推理模块能将注意力集中在利用大型语言模型的丰富知识库和推理能力上，同时还降低了API调用的频次，提高了效率和经济性。

与人类合作的智能代理研究

在构建智能代理时，与人类的协作能力至关重要。这不仅是因为人类是智能代理日常互动的主要对象，更是因为良好的人机协作关系直接影响智能系统的实用价值。最近的研究中，我们探索了一种名为LLM的智能代理在与人类进行协作时的表现。

实验设计与过程

在一项名为Communicative Watch-And-Help（C-WAH）的任务中，我们通过实验检验了LLM代理与人类协作的能力。实验选取了8名参与者，在四种不同的环境下与代理进行互动：与具有高性能（HP）的代理、LLM代理、无沟通能力的LLM代理以及完全独立完成任务。

参与者和代理共享相同的观察和行动空间，并可以通过点击物体并选择动作与之交互。在允许沟通的环境中，参与者可以通过聊天框与代理交流（无沟通场景除外）。为了确保参与者能够熟悉实验界面，我们提供了详细的教程。我们评估了10个不同的任务，并保证每个任务至少由两名参与者执行，总共进行了80次试验。每次试验结束后，我们会根据三个标准让参与者对代理进行评分：沟通效果、帮助程度以及信任度。

实验结果

结果显示，在与人类合作时，LLM代理的表现优于HP代理。当LLM代理无法沟通时，会明显影响其性能。通过实验数据我们还发现，参与者更倾向于信任有沟通能力的代理。在与人类的沟通中，LLM代理使用自然语言，可以更好地理解和回应人类的指令，从而实现更高效的任务分工。

技术分析

那么，强大的LLM对于推理和通信是否必不可少呢？实验数据表明，当使用ChatGPT替代GPT-4时，智能体完成任务的步数明显增加，这可能是因为ChatGPT在推理和规划方面的性能不足。

此外，我们的实验还验证了通信的有效性。尽管在特定情况下通信会失败，但智能代理仍能表现出有效的通信行为，比如信息共享和响应请求。不过，由于当前智能体的通信需要精确建模其他智能体，并理解自然语言的歧义，这使得通信变得极具挑战性。

最后，信念模块和规划模块的有效性也得到了验证。缺少信念模块的智能体完成任务的步骤几乎增加了一倍，说明信念模块在存储和更新场景信息以及其他智能体状态信息方面至关重要。

Conclusion

在这项工作中提出了一个新的框架，利用大型语言模型构建协作的具身化代理，能够高效地规划、沟通和与其他代理和人类合作完成长期目标。
本文在两个扩展的具身化多代理合作环境上进行的实验显示了我们提出的框架的有效性，并展示了几种合作行为。
本文还发现，在使用自然语言进行交流的基于大型语言模型的代理可以更好地与人类合作，并赢得更多人们的信任。

完结！