分享｜ AI Agent（智能体）的技术白皮书2024 by Google

2024 年 Google 团队关于 AI Agent（智能体）的技术白皮书，

westworld2017163com

1065人浏览 · 2025-01-23 08:30:00

westworld2017163com · 2025-01-23 08:30:00 发布

背景

Agent智能体是LLM大模型商业落地的最佳方案，
它扩展了生成式 AI 模型的出厂能力。
2024 年 Google 团队关于 AI Agent（智能体）的技术白皮书，
全面介绍了 AI Agent 相关知识，整理输出如下：

定义

人类借助工具处理复杂任务，
生成式AI模型也可通过使用工具获取实时信息、
给出行动建议，
具备推理、逻辑和访问外部信息能力的生成式AI模型就是 Agent，
它扩展了生成式 AI 模型的出厂能力。

Agent的定义与架构

###概念：
Agent是一种应用程序，能观察世界、使用工具实现目标，具有自主性，可处理模糊指令。

架构与组件：

由模型、工具、编排层构成。

模型是核心决策语言模型；
工具帮助 Agent 与外部互动，扩展行动范围；
编排层负责信息接收、推理、决策和行动的循环过程。

与模型的区别：

Agent能通过工具扩展知识、有状态且自带工具和逻辑层，
而模型知识局限于训练数据、无状态、无原生工具和逻辑层。

认知架构与推理框架

类比厨师做菜：厨师根据顾客需求和食材做菜，过程包含信息收集、推理和行动，并根据反馈调整，这与 Agent的工作方式类似。

推理框架：

ReAct为语言模型提供思考策略；
Chain-of-Thought 通过中间步骤实现推理；
Tree-of-Thoughts 适合探索性任务。
以 ReAct 为例，Agent 接收用户查询后，按提示生成思考、行动、行动输入、观察，循环直至给出最终答案。

工具类型

Extensions：是连接 API 与 Agent 的组件，通过提供示例和参数，让 Agent 调用外部 API，如 Google 的 Code Interpreter extension 可从自然语言生成和运行 Python 代码。
Functions：模型设置函数并决定使用时机和参数，在客户端执行，可使模型结构化输出信息，方便其他系统解析。
Data Storage：通过向量数据库为Agent提供动态更新信息，用于检索增强生成（RAG），提升模型返回的相关性和实效性。

提升模型性能的学习方式

In-context learning：推理时为模型提供提示词、工具和示例，让其 “即时学习”，如 ReAct 框架。
Retrieval-based in-context learning：从外部存储检索信息填充模型提示词，如 RAG 架构。
Fine-tuning based learning：用特定示例训练模型，使模型具备使用工具的先验知识。

创建 Agent 的实践

基于 LangChain：使用 LangChain 和 LangGraph 开源库，结合 SerpAPI 和 Google Places API 等工具，可快速构建 Agent 原型。
Google Vertex AI Agent：介绍了其在Google产品中的应用架构，各组件协同工作以实现复杂功能。

总结

Agent 借助工具扩展语言模型能力，完成复杂任务，核心是编排层，不同推理技术和工具类型为其提供支持。未来 Agent 将更强大，“Agent chaining” 是发展方向，开发中需持续迭代。

中文版全文翻译版推荐：

AI Agent（智能体）技术白皮书（Google，2024）

英文原版链接：

https://drive.google.com/file/d/1oEjiRCTbd54aSdB_eEe3UShxLBWK9xkt/view?pli=1

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

通用人工智能(AGI)发展现状：从科幻到现实的跨越

通用人工智能(AGI)正从科幻走向现实。2025年，多模态融合、递归推理引擎和能效革命三大技术突破推动AGI发展，国际科技巨头和中国企业加速布局。AI Agent在金融、医疗、教育等领域广泛应用，企业自动化效率显著提升。然而，数据隐私、算法透明度和就业替代等伦理挑战亟待解决。未来，AGI将向多模态量子计算融合、具身智能和世界模型方向发展，需要建立人机协作新模式和完善的政策法规框架。AGI既带来机遇

讯飞AI开发者社区

C++与人工智能框架

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它