基础智能体的进展与挑战第 14 章【通信拓扑】

最新推荐文章于 2025-08-19 18:49:14 发布

翻译最新推荐文章于 2025-08-19 18:49:14 发布 · 162 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://www.arxiv.org/pdf/2504.01990

文章标签：

#人工智能 #智能体 #教程 #进展 #挑战 #通信 #拓扑

人工智能专栏收录该内容

38 篇文章

订阅专栏

第十四章

通信拓扑

14.1 系统拓扑

图 14.1：多智能体协作的不同类型拓扑结构。

图 14.2：协作与竞争的智能体。

本节探讨基于大语言模型的多智能体系统（MAS）中的交互类型及其对通信、协作和任务执行的影响。我们首先分析静态拓扑——其中连接模式由领域知识固定——然后探索动态（自适应）拓扑，这些拓扑根据性能指标、工作负载变化或战略约束调整智能体间的连接。最后，我们讨论可扩展性挑战以及在平衡系统成本、性能和鲁棒性方面的权衡，借鉴了分布式处理、自组织和涌现协作行为的最新研究。

14.1.1 静态拓扑

静态拓扑由预定的结构模式定义，这些模式在系统执行期间基本保持不变。在这些配置中，智能体之间——或智能体与中央协调器之间——的连接是使用固定规则和启发式方法建立的，确保了可预测的通信流和简化的协调。通常考虑三种典型形式：分层（层级）、去中心化和中心化架构。

分层（层级）结构分层拓扑按层级排列智能体，高级智能体协调或监督低级智能体。这种方法反映了传统的管理框架——例如标准操作程序（SOP）或瀑布模型——其中任务被分解为顺序的、明确定义的阶段。例如，AutoAgents [1008] 框架分配角色（例如，规划者、智能体观察者和计划观察者）来综合执行计划，而 ChatDev [983] 利用层级任务分解来简化软件开发 [626, 921, 627]。尽管层级结构有助于调试、性能监控和模块化，但当上层智能体过载时，它们可能会产生瓶颈 [1011]。最近在故事叙述 [10 14] 和数据科学应用（包括数据清洗 [1015, 1016]、可视化 [1017, 1018] 和自动化机器学习 [1019, 1020]）中的研究，突显了在一致性与自适应实时行为涌现之间的权衡。

去中心化结构在去中心化拓扑中，智能体在没有中央协调器的情况下以点对点方式交互，形成通常建模为链状、环状、小世界或随机图的网络 [1021, 971]。这种结构增强了容错性，因为单个智能体的故障不会危及整个网络。例如，[1022] 表明，将图推理任务分配给多个智能体可以实现超越单个大语言模型上下文长度限制的可扩展性。此外，[1023] 提出了分解策略，允许一个编排大语言模型有效地委派子任务。然而，在去中心化系统中维护一致的全局状态需要复杂的共识和同步协议。

中心化结构中心化拓扑依赖于一个主协调器，该协调器收集信息并层级化地指导外围智能体。这样的设置允许更好地控制资源处理和共享全局视图，例如文化公园和 Lyfe Agents [1024, 1025]。然而，随着智能体数量的增加，中心节点可能会出现瓶颈，导致通信开销增加和对故障的易感性增强。当前关于协调器-智能体配置的研究 [971] 以及确保中心化配置自治性的研究 [1026] 指出了在一致性方面的可扩展性问题。虽然中心化架构保证了一致性，但未必具有动态适应的灵活性。

简而言之，静态拓扑具有确定性和预定义性的优势。凭借预定义的结构模式，这些系统具有可预测的通信模式和智能体之间有效的协调。这些结构的拓扑通常是根据结构知识或静态规则定义的，因此，它们适用于任务工作流程静态、角色预定义且系统需求明确的领域。第二个主要优势是设计、实施和维护的简便性。由于结构是预定义的，设计和执行过程都变得更简单，因此维护也更简单。由于结构清晰且静态，资源处理和模块化也变得更简单。

然而，静态拓扑本身缺乏灵活性，它们基于预先指定的连接模式，无法响应实时变化。虽然在设计时非常适合特定目的，但完全缺乏应对不可预见挑战的灵活性，包括突发的智能体故障、任务复杂度的变化以及系统目标的修改，静态拓扑不具备实时响应的灵活性潜力。实时响应的不灵活性阻碍了运行时的系统重新配置，并降低了系统在动态环境（其中情况会发生变化）中的有效性。无法根据新出现的情况进行自组织和变形可能等同于效率低下以及系统性能低下，特别是在动态或涌现的环境中。

14.1.2 动态与自适应拓扑

虽然静态拓扑提供了确定性和可预测性——例如层级或中心化等静态拓扑在任务稳定的领域和明确定义的角色中表现良好——但静态拓扑不适用于开放式或新颖的领域。真实领域，从实时协作规划到动态社会模拟，通常要求智能体随着工作的进行、可用资源的变化或从环境中接收反馈而改变其交互模式。这种结构性张力与自适应可塑性催生了动态拓扑，它在运行时根据性能反馈、工作负载或战略约束重塑智能体间的关系，在一致性和响应性之间取得平衡。

例如，DyLAN 框架 [725] 通过两步过程支持推理时的智能体选择：一个使用无监督智能体重要性评分的前向-后向团队优化步骤，随后在运行时进行动态团队重构。类似地，OPTIMA [1027] 通过生成-排序-选择-训练框架迭代优化智能体间的连接性，利用奖励函数作为在任务质量、令牌效率和可读性之间寻求平衡的手段，并通过直接偏好优化等策略进一步优化通信行为。MAD 框架 [649] 通过在三个提示阶段和结构之间进行联合优化来展示灵活性，并在修剪后的结构空间内动态分配角色（例如验证者和辩论参与者）。

拓扑控制也通过技术进步变得易于处理。GPTSwarm [651] 将智能体概念化为计算图，并使用进化策略和强化学习来调整邻接矩阵，以根据任务反馈优化节点。MACNET [1028] 使用有向无环图架构，其中监督指导员管理边，执行助理管理节点，用于更复杂的协调领域，通过拓扑排序和敏感的输出传播促进自适应通信。特定应用的版本也强调了架构的多样性。开放世界环境有 DAMCS [1029]，它将层级知识图（A-KGMS）与结构化通信方案（S-CS）相结合，以根据上下文传递的消息进行协作规划。AutoAgents [1030] 利用动态的起草-执行流水线，由预定义的智能体共同勾勒出专家团队，这种设计对于小说生成等创意应用非常有效，通过并行处理和内部监督实现。值得注意的是，大型 MACNET [1028] 系统内的小世界发展与 [1022] 中展示的图推理思想相呼应，其中分布式架构通过结构化协作绕过了大语言模型的局部限制。在协作任务解决方面，已经出现了几种强调动态拓扑作用的范式。这些范式包括基于搜索的方法、基于大语言模型的生成以及利用外部参数的配置。

基于搜索的方法一些工作采用基于搜索的方法来迭代优化通信结构。例如，ADAS [741] 使用元智能体搜索算法，该算法在代码空间内迭代生成和测试新的智能体设计，存档更优的配置，从而更新后续的生成策略。类似地，Aflow [773] 将每次大语言模型调用建模为图中的一个节点，并利用蒙特卡洛树搜索（MCTS）动态扩展和细化工作流程。其他框架，如 MAD [1031] 和 OPTIMA [1027]，整合了迭代的生成-排序-选择-训练范式，这些范式呼应了 MCTS 原则，以平衡任务性能与效率。

基于大语言模型的方法作为对基于搜索方法的补充，最近的一些工作利用大语言模型的生成能力来构建和调整动态拓扑。Dylan [725] 引入了一个时间前馈网络（T-FFN）模型，该模型将每个通信步骤视为一个网络层，使用前向-后向传播计算智能体重要性评分，以进行动态团队选择。在相关工作中，DAMCS [1029]、AutoAgents [1030] 和 TDAG [1032] 动态生成专门的子智能体或更新层级知识图，从而实现协作规划和任务分解。此外，诸如 AutoFlow [773] 和 Flow [1033] 之类的框架以自然语言程序或活动顶点图（AOV）表示任务工作流，允许通过强化学习信号进行持续改进。ScoreFlow [788] 通过应用基于梯度（损失梯度）的优化来持续重新配置智能体工作流，对这些方法进行了补充。

外部参数鉴于微调基于大语言模型的智能体通常资源密集，相当多的研究人员主张通过训练独立于大语言模型智能体的参数来配置智能体间的拓扑。这种方法由 GPTSwarm [651] 开创，其中智能体间的拓扑表示为有向无环图（DAG），边权重是系统中唯一可训练的组件。AgentPrune 进一步推进了这一范式，从时空图的角度为主流多智能体系统提供了一个统一的建模框架，其中通过基于幅度的修剪来识别和去除通信冗余，即不必要的边。这一研究路线的后续工作包括 G-Safeguard [1034]，它类似地在多智能体系统外部训练 GNN，以检测并消除恶意的通信路径。尽管这些方法参数效率高，但它们相对较小的参数空间和与大语言模型智能体的低耦合度往往在一定程度上导致性能限制。

讨论动态拓扑的作用超出了任务解决，并在模拟复杂的社会互动中扮演着关键角色。正如最近的一项调查 [975] 所详述，基于大语言模型的智能体模型可以演化智能体间的链接，以捕捉跨不同领域（包括网络、物理和混合环境）的自主性、社会行为和环境反馈的实时变化。诸如 [50]、OASIS [936] 和 Project Sid [989] 等系统模拟动态社交网络。[50] 利用生成式自然语言记忆检索，根据智能体的经验调整社会关系，而 OASIS 构建了一个实时社交媒体环境，其中用户关系和信息流不断更新。Project Sid [989] 引入了 PIANO（通过神经编排的并行信息聚合）架构，使超过 1000 个自主 AI 智能体能够在 Minecraft 环境中实时互动，导致复杂社会结构的涌现，例如专业化角色、集体规则遵守以及文化和宗教传播。此外，像 AgentScope-scability [1035] 和 Social Survey [975] 这样的架构支持大规模多智能体模拟，使得在拥有数百或数千个交互智能体的环境中研究文化传播、集体决策和涌现的群体动态成为可能。此外，动态拓扑也针对特定的应用领域进行了定制，例如医疗和开放域具身 AI。在医疗领域，AI 医院 [1036] 和 agent hospital [921] 模拟真实的医疗工作流程，其中诊断、治疗和反馈的迭代周期不断重塑各种角色（如实习医生、患者、检查员和指导医师）之间的通信模式。这些框架动态调整智能体间的通信以优化协作和决策。类似地，在开放域和具身 AI 应用中，像 IOA [933] 这样的框架支持异构、跨设备的智能体交互，促进真实世界场景中的动态团队形成和任务分配。

尽管上述动态多智能体拓扑在性能指标上取得了显著进展，但它们仍然面临以下三个限制，我们认为这些限制应成为未来动态拓扑研究的重点：

（1）泛化性。当前的多智能体系统拓扑通常针对单一任务领域进行优化。例如，AFlow [773] 专注于数学或代码基准测试中的搜索和优化，产生一个固定的工作流程，难以适应新的任务领域。其他动态拓扑，如 ADAS [741]、GPTSWarm [651] 和 AgentPrune，也面临同样的挑战。我们认为多智能体系统应该具备终身学习能力，即系统能够以最少的资源（例如 API 调用、FLOPs、GPU 小时）在不同任务领域之间进行泛化。

（2）资源效率。目前的动态拓扑往往倾向于优化复杂、资源密集型的结构。它们的训练过程通常成本高昂，例如 ADAS [741]，使用 GPT-3.5 进行训练每次会话的成本约为 300 美元。这样的开销严重限制了它们在现实世界场景中的大规模应用。未来的发展应侧重于以显著降低的成本实现更好的测试时拓扑优化。

（3）推理效率。正如 MaAS [787] 敏锐地观察到的那样，过于复杂的多智能体拓扑虽然能够持续提供令人满意的性能，但在任务适应性方面却令人遗憾地存在不足。也就是说，它们无法根据给定任务的难度动态分配推理资源（即工具、智能体数量和推理步骤）。因此，这可能导致推理过程在一定程度上缺乏效率。尽管 MaAS 通过设计的智能体超网在一定程度上实现了任务动态性，但它们在大规模部署中的适用性和可扩展性仍有待检验。

14.2 可扩展性考量

可扩展性是基于大语言模型的多智能体系统（MAS）中的一个关键挑战，尤其是随着智能体数量的增长。在全连接网络中，通信路径的数量呈二次方增长，导致通信爆炸，增加了令牌使用量和计算成本 [1037, 626]。如果监督节点被消息淹没，中心化和分层拓扑可能会遇到同步瓶颈，而去中心化网络——虽然容错性更强——则需要复杂的共识算法来实现一致的全局状态。

最近的研究，如 [1028]，表明当多智能体协作被构建为有向无环图（DAG）时，系统可以有效地扩展以处理大型图——最多 1000 个节点或更多——而不会出现显著的性能下降。类似地，[1022] 表明，将图推理任务分配给多个智能体可以规避长文本输入和上下文长度限制所施加的局限性。此外，关于自组织智能体 [1038] 的研究揭示，动态增殖和任务分配允许系统在增加整体处理能力的同时保持每个智能体的恒定工作负载。最后，[1039] 提出的多维分类法为分析智能体自主性与对齐之间的权衡提供了一个有价值的框架，为如何平衡中心化控制与去中心化灵活性以优化可扩展性提供了见解。

除了这些基础研究之外，实用的多智能体平台设计方面的最新进展进一步丰富了关于可扩展性的讨论。例如，AgentScope [1035] 提供了一个以开发者为中心的平台，该平台利用基于 Actor 的分布式框架，实现了本地部署和分布式部署之间的无缝迁移。其统一的工作流程和自动并行优化显著减少了通常随着智能体数量增加而出现的通信开销和同步挑战。通过集成容错机制和智能消息过滤，AgentScope 展示了如何设计系统级支持来维持性能，即使在动态和异构的部署环境中也是如此。

Project Sid [989] 提出了另一种补充方法，它在模拟智能体文明的领域内探索可扩展性。在这里，焦点从孤立的任务解决转移到复杂社会动态的模拟。所提出的 PIANO（通过神经编排的并行信息聚合）架构通过将较慢的认知过程与快速的反应模块解耦，允许智能体并发操作。引入了一个专门的认知控制器，以确保多个并行输出之间的一致性。这种设计不仅使从小组模拟扩展到涉及超过一千个智能体的模拟成为可能，而且还有效地解决了高频交互所固有的协调挑战。

AgentSociety [1040] 将可扩展性提升到了一个更大的规模，展示了一个用于模拟多达 10,000 个智能体的现实社会环境的综合框架。通过将大语言模型驱动的社会生成智能体集成到现实的城市、社会和经济环境中，AgentSociety 采用分布式计算和高性能消息传递系统（例如 MQTT）来支持数百万次日常交互。该平台例证了新兴的混合架构如何通过有效管理通信成本、协调开销和涌现行为保真度之间的权衡，来支持宏观层面的现象——例如经济市场动态、观点传播和城市规划模拟。

尽管扩大智能体种群在理论上具有优势，但必须质疑追求大规模智能体部署对于所有任务解决场景是否都具有内在价值。虽然总计算能力随智能体数量的增加而扩展，但当考虑到内存开销和智能体间通信成本时，增加额外智能体的边际效用可能会呈现递减的回报。这种现象源于一个基本约束，即虽然总工作负载是单个任务复杂度和劳动分工程度的乘积，但协调成本往往随着智能体数量的增加而超线性增长。因此，对于许多有界问题域，可能存在一个最佳的智能体种群规模，超过该规模后，由于过度的协调开销，性能会趋于平稳——甚至恶化。

相反，在目标是模拟复杂社会动态、涌现行为或大规模集体智能的模拟场景中，扩展到众多智能体不仅是有益的，而且是必不可少的。在这些情境下，研究重点从优化任务解决的计算效率转向准确再现或预测由微观层面的智能体交互涌现出的宏观层面模式。这类模拟——涵盖经济市场行为、社交网络演变和城市基础设施规划等领域——通常需要管理庞大智能体种群的计算开销，以便捕捉现实的种群层面现象。

结合了中心化监督和去中心化子团队的混合架构为这些可扩展性挑战提供了一个有前景的解决方案 [921, 918]。在这些设计中，监督智能体处理全局目标和协调，而工作智能体则专注于执行特定的子任务。这种层级组织有助于减轻任何单个节点的信息过载，并允许根据任务需求动态调整智能体团队规模，从而优化资源利用。此外，诸如图搜索算法、基于强化学习的更新和进化方法等先进技术对于随着系统规模扩展而迭代优化网络结构至关重要。智能消息过滤、优先级排序和聚合机制可以在不牺牲智能体间协作质量的情况下显著减少通信开销。此外，异步通信协议和部分知识共享策略在最小化协调瓶颈的同时保持智能体间足够的全局意识方面显示出潜力。

关于可扩展性的总结性评论总的来说，对基于大语言模型的多智能体系统中系统拓扑和可扩展性的研究揭示了一系列设计选择——从提供简单性和可预测性的静态配置到提供灵活性和适应性的动态架构。虽然基础性工作（例如 [1028], [1038]）强调可扩展的图结构和自组织原则，但 AgentScope、Project Sid 和 AgentSociety 所展示的实际进展说明了集成的分布式框架、并发处理和现实环境模拟如何能够共同应对扩展多智能体系统的挑战。可扩展性需求的上下文依赖性——对比任务解决和模拟场景——突显了在多智能体架构中进行特定目的设计的重要性。随着研究的不断发展，开发更复杂的自适应算法、分布式架构和多维评估框架对于推进基于大语言模型的多智能体系统的可扩展性和实际可行性至关重要。