ICML 2025 高分Oral! 从神经架构搜索到智能体架构搜索:NUS提出多智能体超网络MaAS
摘要:新加坡国立大学团队提出多智能体架构搜索框架MaAS,通过构建"智能体超网"(Agentic Supernet)实现任务自适应的动态团队组建。该框架包含三层核心机制:1)构建包含所有可能工作流的超网;2)通过轻量级调度师动态采样最优执行路径;3)基于文本梯度的联合优化。实验表明,MaAS在6个基准测试中达到83.59%的平均性能,同时将推理成本降至基线方法的25%。其创新性
作者:张桂彬,NUS
>> 加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
最近,由多个AI智能体(Agent)协作完成复杂任务的“智能体社会”概念越来越火,从 AutoGen 到 MetaGPT,我们见证了“群聊”模式解决问题的强大潜力。
然而,在繁荣之下,一个“隐藏问题”逐渐浮现:我们精心设计的,或者用自动化方法找到的智能体团队,往往是一个 “一刀切”的重量级解决方案。譬如在AFlow或者ADAS这样的框架中,无论是简单的小学算术,还是复杂的物理难题,都用同一套“豪华阵容”来应对。
这种“大力出奇迹”的模式,可能导致两个“隐形痛点”:
-
资源浪费:简单任务根本不需要复杂的协作流程,导致大量的LLM调用和Token被白白浪费。
-
泛化难题:一个在A领域(比如网页搜索)表现优异的固定团队,换到B领域(比如文献总结)可能就“水土不服”,难以实现跨领域的最佳性能。
那么,如何打破这种僵局,让AI智能体团队学会“看菜下碟”,专事专办呢?为了解决上述挑战,来自新加坡国立大学、南洋理工大学等高校的团队提出了一种全新的自动化框架 MaAS (Multi-agent Architecture Search)。论文已被录用为ICML 2025 Oral。
论文: 【ICML 2025 Oral】**Multi-agent Architecture Search via Agentic Supernet (MaAS)**
链接: https://arxiv.org/abs/2502.04180
代码: https://github.com/bingreeky/MaAS
范式转换:
MaAS框架与“智能体超网” (Agentic Supernet)
在这篇工作中,研究者们不再追求寻找一个“万能”的智能体系统,而是转变思路:构建并优化一个 “智能体超网”(Agentic Supernet)。
你可以把这个“超网”想象成一个经验丰富的“项目总监”。它内部包含了各种可能的工作流(由CoT、ReAct、Debate等基础智能体算子组成),而不是一个固定的团队。当一个新任务(Query)到来时,这位“总监”会:
-
评估任务:快速分析任务的类型、难度和特点。
-
动态组队:从“超网”中即时采样、组合出一个量身定制、恰到好处的智能体团队(工作流)。
-
高效执行:用最精简的团队、最合理的流程来解决问题。
图1:MaAS框架总览。左侧是智能体“工具箱”,右侧展示了“超网”如何根据不同任务(简单算术 vs 高中物理 vs 复杂编码)动态采样出不同的解决方案。
通过这种方式,MaAS实现了从“静态重团队”到“动态轻组合”的范式转变,真正让智能体协作变得智能、高效且经济。
技术探秘:MaAS是如何工作的?
MaAS框架的“智能”并非魔法,而是一套设计精巧、环环相扣的机制。我们可以将其核心工作流拆解为三大步骤:构建“可能性宇宙”、“看菜下碟”式采样、以及“自我进化”式优化。
第1步:构建智能体超网 (Agentic Supernet)
想象一下,我们不是去设计一辆固定的“汽车”,而是建造一个巨大的、模块化的“超级底盘”(Supernet)。这个底盘上预留了所有可能的接口,可以安装任何型号的引擎(大语言模型)、任何类型的工具(计算器、搜索引擎)、以及任何驾驶策略(智能体算子,如CoT、ReAct、Debate)。
这个“超级底盘”就是我们的智能体超网。它是一个多层的概率图,包含了我们预定义的所有智能体算子。它本身不执行任务,而是代表了解决一个问题的所有潜在路径的集合。
第2步:查询依赖的动态采样
这是MaAS最核心的智慧所在。当一个任务(Query)到来时,一个轻量级的“总调度师”(Controller Network)会立即介入。它会实时分析任务,然后从庞大的“超网”中,动态地构建出一条最优、最经济的执行路径。
让我们通过两个具体案例来看看它是如何工作的:
案例一:简单计算任务
-
输入查询 (Query):
"计算 42! (42的阶乘) 末尾有多少个零?"
-
调度师分析: “调度师”通过对查询文本的理解,迅速识别出这是一个定义明确、有固定解法的数学计算题。它不需要复杂的网络搜索或多方辩论。
-
路径采样过程:
-
第1层 (Layer 1): “调度师”会给那些最直接、最高效的算子打高分。比如,它会大力推荐
ReAct
算子,并为其配备一个代码解释器
工具,因为执行一段简单的Python代码就能完美解决这个问题。同时,I/O
(直接输出)也获得了一定的分数。而像Debate
(辩论)这种重量级算子,则几乎不会被考虑。 -
第2层 (Layer 2): 由于第1层的
ReAct
已经得出了正确答案(通过计算因子5的数量),任务已经完成。“调度师”在这一层会极大地提高Early-Exit
(提前退出)算子的被选中概率(例如,概率高达 47%)。
-
-
最终路径:
Query
→ReAct(with_Code_Interpreter)
→Early-Exit
→Solution
。 -
结果: MaAS用一个极短、高效的路径解决了问题,只进行了一次核心的工具调用,避免了不必要的资源浪费。
案例二:复杂研究任务
-
输入查询 (Query):
"根据维基百科,在2021年,亚洲有哪些国家既保留了君主制,又拥有海岸线?"
-
调度师分析: “调度师”识别出这是一个复杂的研究型任务,需要:①信息检索(哪些是亚洲国家、哪些是君主制国家),②信息交叉验证(同时满足三个条件),③综合整理。
-
路径采样过程:
-
第1层 (Layer 1): 这次,“调度师”会优先选择具备探索能力的算子。
ReAct
算子再次被选中,但这次配备的是Web Search
(网络搜索)工具。它可能会启动多个并行的搜索任务。 -
第2层 (Layer 2): 搜索结果回来了,但可能包含一些错误或矛盾的信息(比如,某个内陆国被误标为有海岸线)。此时,“调度师”会给整合与批判性思维的算子打高分。比如,它会激活
Debate
算子,让两个独立的智能体分别基于搜索结果进行论证和反驳,以去伪存真。同时,Refine
(精炼)算子也会被激活,用于整理初步的候选名单。Early-Exit
的概率会非常低。 -
第3层 (Layer 3): 经过辩论和初步精炼,一个比较可靠的国家列表形成了。最后,“调度师”可能会调用一个
Summarize
(总结)算子,将最终结果整理成清晰、格式化的文本。
-
-
最终路径: 一个长而复杂的路径,如
Query
→ReAct(Web_Search)
→Debate
→Refine
→Summarize
→Solution
。 -
结果: MaAS构建了一个强大的研究团队来应对复杂挑战。虽然成本更高,但它确保了答案的准确性和全面性,实现了“好钢用在刀刃上”。
第3步:联合优化与文本梯度
MaAS不仅会“用”,更会“学”。在每次任务执行后,它都会根据结果的正确性和过程的成本进行复盘和优化。
-
优化“调度师” (Controller): 如果一条路径(比如案例一中的短路径)以低成本获得了高分答案,那么“调度师”就会得到正向激励。下次遇到类似的简单任务时,它选择这条短路径的概率就会更高。这就像是在训练“调度师”的“直觉”。
-
优化“工具箱” (Operators) - 文本梯度 (Textual Gradient): 如果一个算子(比如某个
CoT
的Prompt)在任务中表现不佳,我们不是简单地弃用它,而是让AI来“修复”AI。
-
一个“梯度智能体”会审查失败的执行过程。
-
它会生成一段“优化指令”,这就是所谓的“文本梯度”。比如:“你在进行多步推理时,逻辑跳跃太快,导致结论错误。你应该在Prompt中加入一个要求,强制模型先列出所有已知条件,再进行推导。”
-
这段文本指令会被自动应用,去更新那个表现不佳的
CoT
算子的Prompt。 -
通过这种方式,我们的“工具”本身也在不断地迭代和进化,变得越来越强大和可靠。
总结来说,MaAS就像一个能自我学习的“项目管理大脑”,它不仅能为每个任务动态组建最合适的团队,还能在实践中不断培训团队成员、优化工作流程,最终实现效率与效果的完美平衡。
🚀 实验解析:性能与成本的双重优化
MaAS在数学、代码、工具使用等6个主流基准测试上进行了全面评估。相比于现有SOTA方法,MaAS不仅在各项任务上取得了最优的平均性能(83.59%),更在资源效率上展现了惊人的优势。
在最具挑战的MATH基准上,与强大的基线方法AFlow相比,MaAS的训练成本仅为其15%,推理成本更是低至其25%,最终推理API开销仅为 $0.42!
MaAS最智能的地方在于,它能根据任务难度自适应地调整策略。
-
面对简单任务:如下图(a)和(b),当遇到简单的数学问题时,MaAS会大概率在第二层就选择
Early-exit
算子,提前终止复杂的流程,用最简单的I/O或ReAct快速给出答案,概率高达37%和47%。 -
面对复杂任务:而当遇到难题时(图d),MaAS则会=调用更多层的、更复杂的算子组合(如Ensemble、Refine)来确保解题的准确性,并且几乎不会提前退出。
这种查询感知的动态资源分配能力,正是MaAS能够兼顾性能与效率的核心原因。
总结与展望
在本文中,多智能体系统设计的范式从“寻找最优的单个系统”,转变为“优化一个系统的动态分布”。所提出的MaAS框架,通过其核心的“智能体超网”概念,实现了对不同任务的“量体裁衣”,在大幅提升资源效率的同时,取得了SOTA的性能表现。我们相信,MaAS为构建更通用、更经济、更智能的自动化AI系统铺平了道路。
往期推荐
像素空间推理揭秘「o3」关键技术:好奇心驱动RL解锁多模态推理全新范式
如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL
更多推荐
所有评论(0)