本文作者李锐,来自中国人民大学高瓴人工智能学院,导师为陈旭准聘副教授。
随着人工智能的迅速发展,大语言模型(LLMs)作为一种强大的自然语言处理工具已经在各个领域展现出了巨大的潜力。近期,基于大语言模型的多智能体研究备受关注,其在智能对话系统、协作任务、游戏策略等领域都有着重要的应用和探索。在本文中,我们将简要概述ICLR 2024上关于基于大语言模型的多智能体的十篇投稿论文。通过这些研究,我们可以更好地理解和探索多智能体系统在未来人工智能应用中的潜力和可能性。
这篇论文介绍了一种名为MetaGPT的创新性元编程框架,用于改进基于大型语言模型(LLMs)的多智能体协作系统。作者指出,现有的LLM-based多智能体系统已经可以解决简单的对话任务,但对于更复杂的任务,存在逻辑不一致性的问题,因为LLMs的简单级联会导致幻觉级联。MetaGPT通过将标准化操作流程(SOPs)编码为提示序列,将人类工作流程有效地整合到LLM-based多智能体协作中。这种方法使得具有类似人类领域专业知识的智能体能够验证中间结果并减少错误。MetaGPT采用了装配线范式,将不同角色分配给各种智能体,将复杂任务有效地分解为涉及多个智能体共同工作的子任务。在协作软件工程基准测试中,MetaGPT生成的解决方案比之前基于聊天的多智能体系统更连贯。
这篇论文介绍了一种名为AgentVerse的多智能体框架,该框架受到人类群体动态的启发,能够有效地协调专家智能体的合作,形成一个超越其各个部分之和的系统。作者指出,虽然基于大型语言模型(LLMs)的自主智能体在各种任务上取得了显著进展,但在现实场景中,通常需要个体之间的合作来增强任务完成的效率和效果。本文实验表明,AgentVerse能够有效地部署多智能体集群,优于单一智能体的表现。在文本理解、推理、编码、工具利用和具象化人工智能等方面进行的广泛实验进一步证实了AgentVerse的有效性。
这篇论文探讨了文本评估领域的挑战,并介绍了一种名为ChatEval的多智能体辩论框架,旨在通过多智能体辩论自动讨论和评估不同文本的质量。作者指出,尽管基于单个智能体的方法显示出潜力,但实验结果表明,需要进一步的进展来弥合它们当前效果与人类级别评估质量之间的差距。本文通过借鉴人类评估过程的最佳实践,将多个智能体评估者合作评估引入到这一框架中,超越了单个智能体提示策略。实验结果显示,ChatEval在两个基准测试上表现出优越的准确性和与人类评估一致的相关性。此外,本文还发现,多智能体辩论过程中的多样化角色提示(不同的人设)对于提高性能至关重要。
这篇论文致力于解决具有分散控制、原始感知观察、昂贵通信和多目标任务的复杂多智能体协作问题。作者指出,以往的研究要么假设通信渠道免费,要么依赖于具有共享观察的集中式控制器,而本文则利用LLMs的常识知识、推理能力、语言理解和文本生成能力,将其无缝地整合到一个整合了感知、记忆和执行的模块化框架中。本文构建了一个名为CoELA的合作智能体,能够有效地与其他智能体或人类进行沟通合作,从而完成长期任务。在C-WAH和TDW-MAT上的实验证明了由GPT-4驱动的CoELA能够超越强大的基于规划的方法,并表现出涌现的有效通信。本文还进行了一个针对人机交互的用户研究,发现使用自然语言进行交流的CoELA能够获得更多的信任,并与人类更有效地合作。这项研究突显了LLMs在未来多智能体合作研究中的潜力。
这篇论文提出了一种名为Dynamic LLM-Agent Network(DyLAN)的框架,用于解决复杂任务,如推理和代码生成的LLM-智能体协作。作者指出,现有方法采用固定的智能体集合在静态架构中相互交互,这限制了它们对各种任务的泛化能力,并需要在设计这些智能体时具有强大的人类先验知识。为此,本文提出了在动态交互架构中根据任务查询构建战略智能体团队的想法。DyLAN使智能体能够在动态架构中进行多轮交互,并采用推断时间智能体选择和提前停止机制来提高性能和效率。此外,本文还设计了一种基于无监督度量智能体重要性的自动团队优化算法,以根据每个智能体的贡献选择最佳的智能体成员。本文的实验证明了DyLAN在推理和代码生成任务中表现良好,同时具有合理的计算成本。与在GPT-35-turbo上单次执行相比,DyLAN在MATH和HumanEval上分别提高了13.0%和13.3%。在MMLU的特定主题上,DyLAN中的智能体团队优化使准确率提高了高达25.0%。
这篇论文介绍了一个名为AutoGen的开源框架,该框架允许开发人员通过多个可以相互对话以完成任务的智能体来构建LLM应用程序。AutoGen智能体可定制、可对话,并可以以使用LLMs、人类输入和工具的各种模式操作。使用AutoGen,开发人员还可以灵活定义智能体的交互行为。自然语言和计算机代码都可以用来为不同的应用程序编程灵活的对话模式。AutoGen作为一个通用基础设施,可以构建各种复杂度和LLM容量的不同应用程序。实证研究证明了该框架在许多示例应用程序中的有效性,涵盖了从数学、编码、问答、运筹学、在线决策、娱乐等多个领域。
这篇论文介绍了一种名为DebateGPT的大型语言模型(LLM),它在语言生成、理解和推理方面取得了显著的性能,而不需要过多依赖资源密集型的人机交互反馈。DebateGPT是通过一种称为多智能体辩论的新方法,利用从Alpaca中提取的一组有限指令对GPT-3.5进行微调而打造的, 在各种任务中实现了与GPT-4相媲美的性能。作者利用多智能体辩论,利用不太强大但成本效益高的LLMs生成数据,而无需人类标注。令人惊讶的是,在一个由多智能体辩论获得的中等规模Alpaca数据集上对GPT-3.5进行微调后,DebateGPT在AlpacaEval测试集上表现出与GPT-4相似的结果,并展示了对新任务(如常识推理、事实性和数学)的显著零次泛化。例如,DebateGPT在算术任务上的表现比GPT-4高出2.2%。值得注意的是,DebateGPT比GPT-4小得多,只使用了一个适度的数据集。DebateGPT提供了一种创新的策略,可以训练出高效的语言模型,而无需昂贵的人机交互反馈或过度庞大的架构。
这篇论文提出了一种新的评估框架,将可评分的多智能体谈判游戏作为大型语言模型(LLMs)的评估基准,以评估LLMs在处理复杂情况时的推理和决策能力。作者指出,尽管LLMs在解决实际任务方面越来越受到关注,但对它们的推理和决策能力仍了解有限,部分原因是缺乏专用的评估基准。为了解决这一问题,本文创建了一个多样化的基于文本的、多智能体的、多议题的、语义丰富的谈判游戏测试平台,并提出了可轻松调整难度的解决方案。在这些挑战中,智能体需要具有强大的算术、推理、探索和规划能力,并将它们无缝地整合起来。通过zero-shot CoT的提示,本文表明智能体可以进行谈判并一致达成交易。本文使用多种度量标准量化了性能,观察到GPT-4和早期模型之间存在很大差距。最后,本文展示了这些游戏也可以帮助评估其他关键方面,例如在贪婪和对抗性玩家存在的情况下,多智能体之间的交互动态。
这篇论文提出了一种新的框架,利用强化学习来开发具有战略性思维能力的大语言智能体。作者选择了一个名为Werewolf的流行语言游戏作为研究对象,这是一个涉及合作和竞争的社交推理游戏,强调欺骗性沟通和多样化的游戏玩法。本文中的智能体首先利用LLMs推理潜在的欺骗行为,并生成一组战略多样的行动。然后,通过基于群体的训练学习一种RL策略,该策略从候选行动中选择一个行动,以增强智能体的决策能力。通过将LLMs与RL策略相结合,本文中的智能体产生了多种新的规划,在对抗其他智能体时取得了最高的胜率,并且对抗人类玩家时也表现出了鲁棒性。
本文提出了零和博弈Diplomacy的一种变体,即Welfare Diplomacy,旨在为衡量多智能体系统的合作能力提供强大的基准。作者认为,Welfare Diplomacy可以更清晰地评估和更强烈地激励合作能力。本文的贡献包括:提出Welfare Diplomacy规则,并通过开源Diplomacy引擎实现它们;使用zero-shot提示的语言模型构建基线智能体;实验发现使用最先进模型的基线智能体取得了高的社会福利,但容易被利用。这项工作旨在通过帮助研究人员开发和评估多智能体人工智能系统,促进社会安全。
如需转载此文章请联系我们,谢谢~
相关链接