万字长文!具身智能从入门到精通:黄仁勋预言的AI新浪潮,基础概念+大模型赋能全解析
具身智能(Embodied****AI****)****旨在开发具备物理形态的智能系统**,使其能够在真实环境中**感知、决策、行动和学习**,是实现**通用人工智能**(AGI)的重要路径之一。
“大模型与物理世界的深度融合正将具身智能推向新的发展高峰,使其成为探索通用人工智能(AGI)最具潜力的路径之一。”
本文从基础概念讲起,旨在系统性梳理大模型赋能的具身智能研究进展,重点关注自主决策和具身学习两大核心方向,并探讨大模型在通用能力增强方面的技术(如上下文学习、CoT、RAG等)。
具身智能(EmbodiedAI)**旨在开发具备物理形态的智能系统,使其能够在真实环境中感知、决策、行动和学习**,是实现通用人工智能(AGI)的重要路径之一。
然而,尽管已有数十年的探索,具身智能在开放动态环境中实现人类水平的通用任务能力仍面临巨大挑战。
近年来,大模型(如大语言模型、视觉语言模型等)的突破显著提升了具身智能的感知、交互、规划和学习能力,但其在泛化性、可扩展性和环境交互无缝性方面仍存在诸多问题。
本文旨在系统综述大模型赋能的具身智能研究进展,重点关注自主决策和具身学习两大核心方向。
图1 整体结构
本文撰写思路,首先介绍具身智能的基本概念和大模型的分类:大语言模型、视觉语言模型、多模态大模型等,并探讨大模型在通用能力增强方面的技术,如上下文学习、思维链、检索增强生成等。随后,从分层决策范式、端到端决策范式、具身学习三个方面展开详细分析。
一、具身智能的基础概念
具身智能(Embodied****AI)是一种将人工智能集成到物理系统中的技术,使这些系统能够与物理世界进行感知、推理和互动,从而在智能空间、人形机器人和自动驾驶汽车等领域实现更高效、更安全的自动化操作。
具身智能系统通常包括两个主要组成部分:物理实体和智能体。
**物理实体:**如人形机器人、四足机器人和智能车辆,执行动作并接收反馈,充当物理世界和数字世界之间的接口。
**智能体:**认知核心,实现自主决策和学习。为了执行具身任务,具身人工智能系统从语言指令中解读人类意图,积极探索周围环境,感知来自环境的多模态元素,并为任务执行动作。
图2 具身智能:整个过程所需的能力
**这一过程模仿了人类的学习和问题解决范式。**如图2(a)所示,人类通过各种资源学习技能,例如,书籍、教学材料和在线内容。
在遇到不熟悉的情景时,他们会评估环境、计划必要的行动、在脑海中模拟策略,并根据结果和外部反馈进行调整。
具身智能模仿这种类似人类的学习和问题解决模式,如图2(b)所示。通过模仿学习,智能体从人类示范或视频数据中获取技能。
面对复杂任务或新环境时,他们分析周围环境,根据目标分解任务,自主制定执行策略,并通过模拟器或世界模型完善计划。执行后,强化学习通过整合外部反馈来优化策略和行动,提高整体表现。
具身智能的核心:在于使智能体能够在开放动态环境中自主做出决策和学习新知识。
自主决策可以通过两种方法实现:分层范式和端到端范式。
- 分层范式,它将感知、规划和执行分为不同的模块;
- 端到端范式,它将这些功能整合到一个统一的框架中,实现无缝操作。
具身学习使智能体能够通过长期的环境互动自主完善其行为策略和认知模型,实现持续改进。
此外,世界模型也在通过模拟真实世界的推理空间,为智能体提供尝试和积累经验的机会方面起着关键作用。
这些组件协同工作,增强具身代理的能力,向 AGI 迈进。
二、大模型
大模型,包括大语言模型(LLM)、视觉大模型(LVM)、视觉-语言大模型(LVLM)、多模态大模型(MLM)和视觉-语言-动作(VLA)模型,在架构、数据规模和任务复杂性方面取得了显著突破,展示了强大的感知、推理和交互能力,如图3所示主要LLM时间线。
图3 主要LLM时间线
2.1 大语言模型
2018年,谷歌发布****BERT[1] ,这是一种用自监督任务预训练的双向Transformer模型,显著提高了自然语言任务的性能。
随后,OpenAI发布了基于Transformer架构的生成模型****GPT[2] ,该模型通过在大规模无监督语料库上进行自回归训练来生成连贯文本,标志着生成模型的突破。
2.2 视觉大模型
**LVM用于处理视觉信息。**ViT[3] 将 Transformer 架构应用于计算机视觉,将图像划分为固定大小的块,并使用自注意力捕捉全局依赖性。
Facebook 发布**DINO[4]和DINOv2[5]**,利用自监督学习与ViT一起使用。
DINO 采用了一种学生-教师网络的自蒸馏方法来生成高质量的图像表示,通过自注意力和对比学习捕捉语义结构,而无需标记数据。
DINOv2 通过改进的对比学习和更大的训练集增强了DINO,提升了表示质量。
MAE[6] 利用自监督学习重构被掩蔽的视觉输入,使其能够在庞大的未标记图像数据集上进行预训练。
SAM[7]和SAM2[8],在1100万张图片上预训练的“任意分割模型”,支持多种分割任务,包括语义、实例和对象分割,通过基于用户反馈的微调展现出强大的适应性。
2.3 视觉语言大模型
LVLM 将预训练的视觉编码器与视觉-语言融合模块集成在一起,允许处理视觉输入并通过语言提示响应与视觉相关的查询。
CLIP[9] 通过在大规模图像-文本对上进行对比学习训练图像和文本编码器,对齐成对的样本特征,同时最小化不成对的样本,以创建与文本语义匹配的视觉表示。
BLIP[10] 采用双向自监督学习来融合视觉和语言数据,使用“引导”策略提高预训练效率,并在视觉问答和图像字幕生成任务中提升性能。BLIP-2[11] 进一步引入了QFormer结构,从冻结的图像编码器提取视觉特征,并通过多模态预训练与语言指令对齐,以实现高效的跨模态融合。
Flamingo[12] 在少样本学习中表现出色,处理极少样本的多模态数据以支持数据稀缺场景下的跨模态推理。
GPT-4V[13] 扩展了传统GPT,以处理联合的图像-文本输入,生成图像描述,并以强大的多模态推理能力回答视觉问题。
DeepSeek-V3[14] 通过采用动态稀疏激活架构,进一步扩大了多模态推理的边界。它引入了一种混合路由机制,结合了特定任务的专家和动态参数分配,实现了跨模态融合任务的高计算效率。
2.4 多模态大模型
MLM 能够处理多种模态,包括文本、视觉、音频等。根据输入输出范式,MLM可以被归类为多模态输入文本输出模型和多模态输入多模态输出模型。
**(1)多模态输入文本输出模型:**整合了多样的数据模态,以实现全面的内容理解。
Video-Chat[15] 通过对话建模增强了视频分析能力,擅长动态视觉内容理解。
VideoLLaMA[16] 在Llama架构的基础上,结合了视觉和音频输入,以实现强大的视频内容分析。
谷歌的多模态Gemini[17],专为多模态设计,高效处理文本、图像和音频,用于图像描述和多模态问答。
PaLM-E[18]将多模态输入转换为统一向量,并将它们输入到PaLM模型中进行端到端训练,实现了强大的多模态理解。
**(2)多模态输入多模态输出模型:**通过学习复杂的数据分布生成多样的数据类型,如文本、图像和视频。
DALL·E[19] 通过结合向量量化变分自编码器(VQ-VAE)和拥有12亿参数的Transformer扩展GPT-3,生成了创意性、与提示对齐的图像,支持零样本任务。
DALL·E2[20] 通过整合CLIP来增强DALL·E,采用两阶段过程:首先生成低分辨率图像,然后进行超分辨率增强,极大提升了图像质量和多样性。
DALL·E3[21] 通过提升文本编码器和训练数据质量,进一步完善了图像与提示的对齐。
2024年,OpenAI发布了Sora[22],一个视频生成模型,能够根据文本提示创建长达60秒的高质量连贯视频。Sora使用编码网络将输入转换为离散标记,利用大规模扩散模型优化序列,并将去噪后的标记投影回视频空间。
2.5 视觉语言动作模型
VLA 模型近期获得了巨大关注,核心目标是通过直接将多模态输入映射到动作输出,而不是通过层次决策的中间步骤,从而提高机器人的感知-动作整合能力。
VLA(视觉-语言-动作)的概念最初由 RT-2 提出,该方法利用预训练的视觉-语言模型将动作空间离散化为动作标记,并通过联合微调互联网数据和机器人数据实现泛化。
然而,其离散的动作设计和闭源性质限制了它的灵活性和进一步研究的可能性。
**为了克服这些限制,出现了基于连续动作生成的VLA模型和开源VLA模型。**最近关于VLA模型的研究进一步解决了这些挑战。BYO-VLA[23]、3D-VLA[24]、PointVLA[25]处理视觉输入。Octo[26]和Diffusion-VLA[27] 提高了动作生成的准确性。TinyVLA[28] 和 π0[29] 提升了计算效率。
2.6 大模型的通用能力提升
**大模型在推理能力、幻觉、计算成本和特定任务方面仍然存在限制。**本部分介绍一系列技术来提升它们的通用能力,如图4所示。
图4 大模型的通用能力增强
**上下文学习(ICL[30])**使大模型能够通过精心设计的提示实现零样本泛化,让它们能够在不需要额外训练和调整的情况下应对新任务。利用输入提示中的上下文,大模型能够理解任务要求并生成相关输出,使其成为从自然语言处理到特定任务问题解决的多功能工具。最近的进展集中在优化提示技术,如自动化提示生成和动态示例选择,以提高跨领域ICL的鲁棒性。
XoT 是一个推理框架家族,旨在提高大模型解决数学、逻辑和开放式问题的能力。思维链(CoT[31])将中间推理步骤整合到提示中,指导大模型将复杂问题分解为可管理的部分。思维树(ToT[32])通过探索树状结构中的多个推理路径来扩展CoT,允许大型模型评估替代解决方案并在必要时回溯。思维图(GoT[33])通过采用一种图结构进一步推进了ToT,其中节点表示中间状态,边捕获关系和依赖关系,实现了灵活的非线性推理。
**检索增强生成(RAG[34])**从外部知识库(如数据库和网络资源)检索相关信息,并将其输入到大型模型中以获得准确响应。RAG缓解了大模型知识过时或不完整的问题,确保能够访问最新和特定领域的信息。最近的进展包括混合检索机制,结合密集和稀疏检索方法以平衡精确性和效率,以及微调策略,有效地将检索到的内容与生成输出对齐。
**推理与行动(ReAct[35])**将推理与执行动作结合起来,在执行任务期间能够产生明确的推理轨迹。ReAct 要求大型模型在行动之前明确其思维过程,增强了决策透明度,并在动态互动环境中提高了性能。
**基于人类反馈的强化学习(RLHF[36])**将人类偏好整合到大型模型的训练中,使大型模型与人类价值观和意图保持一致。通过使用人类反馈作为奖励信号,RLHF 提高了模型在动态互动环境中生成有用、无害和诚实输出的能力。通过提示模型生成多个响应,基于人类反馈的强化学习(RLHF)允许人类根据质量和安全性对其进行排名或评级,并使用此反馈来完善模型未来的生成,确保连贯性和伦理考量。
模型上下文协议(MCP[37]),为大型模型提供了一个标准化接口,用于与外部数据源、工具和服务进行交互。MCP增强了大型模型的互操作性和适应性,使其能够与多样化的外部系统无缝集成。MCP的最新发展集中在扩展其与多模态输入的兼容性,并优化其在实时应用中的性能。
2.7 具身大模型
大模型通过增强智能体的能力来赋能具身智能。具身大模型(ELM),也称为具身多模态大模型(EMLM),通过无缝集成包括文本、视觉、音频和触觉在内的多种模态,能够赋予代理构建复杂环境中感知、推理和行动的复杂系统的能力,在自主决策和具身学习方面发挥着至关重要的作用。
不同的大模型赋予具身智能体不同的能力。大语言模型通常充当认知骨干,处理自然语言输入,把握上下文细微差别,并生成可操作的响应。
**大语言模型(LVM)**通常用于感知任务中,或在任务执行期间作为可调用的API使用,利用预训练的视觉编码器来预测物体类别、姿态和几何形状。
通过将**大语言模型(LLM)**与多种模态数据集成,**视觉语言模型(LVLM)和多模态大模型(MLM)**可以进一步增强智能代理的能力,使智能体能够跨文本、视觉和音频理解人类指令,生成上下文相关的响应或动作。
**在复杂导航和操作任务方面的最新进展突显了MLM的优势。**与前几个分别处理不同功能的模型不同,**视觉语言模型(VLA)**学习从视觉和语言输入到可执行动作的端到端映射。
这一简化流程使智能体能够解释复杂指令,感知动态环境,并执行精确的物理动作,从而产生更健壮、更多功能性的具身人工智能系统。除了增强规划智能外,还越来越多地探索其生成能力,以推进具身学习并协助构建世界模型,进一步支持通向AGI的道路。
三、分层自主决策
智能体的自主决策旨在将环境感知和任务理解转化为可执行的决策和物理动作。
传统决策采用分层范式,包括感知与互动、高层规划、低层执行以及反馈与增强。感知与互动层依赖于视觉模型,高层规划层依赖于预定义的逻辑规则,而低层执行层则依赖于经典控制算法。
这些方法在结构化环境中表现出色,但由于有限的整体优化和高层决策,在非结构化或动态环境中难以实现。
图5 分层决策范式,由感知和互动、高层规划、低层执行、反馈和增强组成
大模型在鲁棒学习、推理和泛化能力方面的进步,在复杂任务处理中展现了希望。通过整合大型模型的推理能力与物理实体的执行能力,它为自主决策提供了新的范式。如图5所示,环境感知首先解释智能体周围的环境,LLM赋能的高层规划随后考虑感知信息和任务指令将复杂任务分解为子任务,LLM赋能的低层执行随后将子任务转化为精确的物理动作,最后LLM赋能的反馈增强引入闭环反馈以提高智能水平。
3.1 高层规划
图6 高级规划
高层规划的目标是根据任务指令和感知信息制定合理的计划。传统方法依赖于基于规则的规划,但在非结构化或动态环境中适应性较差。大模型通过其零样本和少样本泛化能力,显著提升了高层规划的灵活性和适应性。具体方法包括:
3.1.1 利用大语言模型进行结构化语言规划
- 使用LLM作为规划器:使用大语言模型(LLM)生成计划,但容易因严格的语法和语义要求产生逻辑错误。为了缓解这一问题,引入验证器。通过外部验证器(如 PDDL 解析器或环境模拟器)检查和迭代改进 LLM 生成的计划。
- 生成 PDDL(规划领域定义语言):利用 LLM 自动生成 PDDL 领域文件和问题描述,减少手动建模工作。
3.1.2 利用大语言模型进行自然语言规划
- 自然语言表达:利用自然语言的灵活性将复杂任务分解为子任务,但容易生成不可行的计划。
- 结合强化学习:通过将 LLM 生成的计划与预定义的技能库和价值函数结合,评估动作的可行性。
- 动态解码:动态结合 LLM 输出与实时接地模型,评估行动的可行性,生成上下文可行的计划。
3.1.3 利用 LLM 进行编程语言规划
- 代码生成:将任务规划转换为代码生成,生成可执行的程序,增强适应性。
- 多模态基础模型:结合多模态基础模型进行感知、规划和控制,提高规划精度。
- 结构化提示:使用结构化提示指导 LLM 生成定制化的基于代码的计划,减少无效代码生成。
3.2 低级执行
图7 低级规划
低级执行是将高层规划生成的子任务转化为具体的物理动作,是具身智能体执行任务的关键环节。低级执行涉及控制理论、机器学习和机器人工程,从传统的控制算法发展到学习驱动的控制,再到模块化控制,以适应复杂多变的环境。具体方法包括:
3.2.1 传统控制算法
- 比例-积分-微分(PID)控制:通过调整参数最小化机器人关节控制的误差,适用于简单的控制任务。
- 状态反馈控制:结合线性二次型调节器(LQR)优化性能,适用于需要精确控制的场景。
- 模型预测控制(MPC):通过滚动优化预测状态并生成控制序列,适用于路径跟踪等任务。
3.2.2 采用大语言模型的学习驱动控制
- 模仿学习:通过专家示范训练策略,快速制定初始策略,减少探索时间。
- 强化学习:通过试错优化策略,适用于高维动态环境,但需要大量数据和计算资源。
- 混合方法:结合模仿学习和强化学习,先用模仿学习初始化策略,再用强化学习进行精炼,提高策略的鲁棒性和适应性。
3.2.3 结合大语言模型和预训练模型的模块化控制
- 模块化设计:将大语言模型与预训练的策略模型(如 CLIP、SAM)结合,动态调用这些模块以完成任务。
- 多模态融合:利用多模态基础模型进行感知、规划和控制,提高执行的准确性和适应性。
- 轻量级模型:通过知识蒸馏等技术将大型模型压缩,提高推理效率,适用于资源受限的边缘设备。
3.3 反馈与提升
图8 反馈与提升
反馈与提升是具身智能决策过程中的关键环节,旨在通过闭环反馈机制优化智能体的决策和执行能力。反馈可以来自大模型自身、人类或环境,通过这些反馈,智能体能够动态调整策略,提高任务执行的准确性和效率。具体方法包括:
3.3.1 大模型的自我反思
大模型可以作为任务规划者、评估者和优化者,从而在外部干预的情况下迭代改进决策过程。智能体会获得行动反馈,自主检测和分析执行失败的情况,并从过往任务中持续学习。通过这种自我反思和优化机制,大模型能够生成稳健的策略,在长序列规划、多模态任务和实时场景中提供优势。自我反思可以通过两种方式实现,如图8(a)所示。
- 重新提示(Re-Prompting):通过检测执行失败或前提条件错误,将错误上下文作为反馈,动态调整提示,纠正大语言模型生成的计划。
- 内省机制:大语言模型能够独立评估和完善其输出,通过多个自我反馈循环迭代改进计划的合理性。自我完善(Self-Refine):使用单一的大语言模型进行规划和优化,通过自我反馈循环提高计划的可行性。反思(Reflection):结合长期记忆存储评估结果,并通过多种反馈机制提高计划的可行性。迭代自优化:在基于PDDL的规划中应用迭代自优化,生成初始计划后进行合理性检查,并通过自我反馈完善结果。
3.3.2 人类反馈
人类反馈通过与人类建立互动闭环机制,如图8(b)所示,提高了规划的准确性和效率。这种方法使智能体能够根据人类反馈动态调整行为。
- 不确定性测量:通过引入不确定性测量框架,使大语言模型能够识别知识空白,并在高风险或不确定情景下寻求人类协助。
- 规划-执行-反馈循环:当低级控制失败时,智能体请求人类输入,结合强化学习和自我监督优化,动态调整规划策略。
- 实时纠正:允许用户通过命令指导暂停机器人,进行实时基于语言的纠正,反馈被记录用于策略微调和定期查询,实现实时和长期改进。
- 互动问答:通过与人类进行互动问答获取特定任务知识,从而发出精确的机器人指令。
3.3.3 环境反馈
环境反馈通过与环境的动态互动来增强基于大语言模型(LLM)的规划,如图8©所示。
- 多模态反馈:将多模态输入转换为用于“内心独白”推理的语言描述,使大语言模型能够根据环境反馈调整计划。
- 动态适应:通过与环境的动态互动,增强基于大语言模型的规划,实时纠正动作轨迹。
- 多智能体交互:在多智能体环境中,利用环境反馈和智能体间通信实时纠正机器人臂路径规划。
四、端到端自主决策
分层范式依赖于独立的任务规划、动作执行和反馈模块,因此存在错误累积的问题,并且在跨多样任务泛化时表现不佳。
此外,从大模型中提取的高级语义知识难以直接应用于机器人动作执行,导致整合上的缺口。
为了缓解这些挑战,端到端自主决策近期引起了广泛关注,它直接将多模态输入(即视觉观测和语言指令)映射到动作。这通常由VLA实现,如图9所示。
图9 VLA的端到端决策
4.1 视觉-语言-动作模型
VLA模型通过将感知、语言理解、规划、动作执行和反馈优化集成到一个统一的框架中,代表了具身智能的一个突破。
VLA模型利用大模型的丰富先验知识,能够在动态、开放的环境中实现精确且适应性强的任务执行。
一个典型的VLA模型包括三个关键组成部分:分词和表征、多模态信息融合以及动作去标记化,如图10所示。
图10 视觉语言动作模型
4.2 对VLA的改进
VLA(视觉-语言-动作)模型是端到端决策的核心,通过将感知、语言理解和动作生成集成到一个统一框架中,显著提升了具身智能代理的任务执行能力。
然而,VLA模型在复杂任务中仍面临挑战,如对输入扰动的敏感性、3D空间关系理解不足、动作生成精度有限以及训练成本高昂等。
图11 视觉语言动作模型的改进
对VLA模型的改进主要集中在提高感知能力、优化轨迹动作生成和降低训练成本三个方面。
通过运行时观测干预和3D感知技术,显著提升了模型对复杂环境的感知能力。扩散模型的引入优化了动作生成的精度和平滑性,而高效的采样方法和模型压缩技术则降低了训练和部署的成本。
这些改进方法的结合,使VLA模型在复杂任务中的表现更加稳健,适用于多样化的应用场景,为具身智能代理的端到端决策提供了更强大的支持。
4.3 分层式决策和端到端决策
**分层式决策和端到端决策是实现具身智能自主决策的两种主要范式。**它们在设计哲学、实施策略、性能特点和应用领域上存在显著差异。本部分对这两种决策范式进行了详细比较,概述了它们在架构、性能、可解释性、泛化能力等方面的关键区别。
分层式决策
分层式决策将复杂的决策过程分解为多个模块,每个模块负责处理感知、规划、执行和反馈的具体方面。
其核心思想是将复杂任务分解为可管理的子任务,以提高调试性、优化和维护性。分层式决策的主要特点包括:
- 架构:感知模块(如SLAM、CLIP)、高层规划模块(如PDDL规划器)、低层执行模块(如预定义的技能列表)和反馈模块(如LLM自我反思、人类反馈、环境反馈)。
- 性能:在结构化任务中表现可靠,但在动态复杂环境中可能因模块协调不当而出现次优解。
- 可解释性:高,模块化设计清晰,易于理解和调试。
- 泛化能力:有限,依赖于人类设计的结构,对未见过的场景和任务适应性较差。
- 实时性:低,模块间通信可能在复杂场景中引入延迟。
- 计算成本:适中,独立模块优化但存在协调开销。
- 应用领域:适用于工业自动化、无人机导航、自动驾驶等结构化任务。
端到端决策
端到端决策采用一个大型神经网络(如VLA模型),直接将多模态输入映射到动作,而不进行模块化分解。
其核心思想是通过大规模数据集训练,实现感知、规划和执行的无缝集成。端到端决策的主要特点包括:
- 架构:感知、规划和执行功能集成在一个统一的框架中,通常基于VLA模型。
- 性能:在复杂、开放的任务中表现优越,具有强大的泛化能力。
- 可解释性:低,由于神经网络的黑盒特性,决策过程难以分析。
- 泛化能力:强,通过大规模预训练实现对非结构化环境的适应。
- 实时性:高,直接的感知到动作映射减少了处理开销。
- 计算成本:高,训练需要大量计算资源。
- 应用领域:适用于家庭机器人、虚拟助手、人机协作等复杂任务。
五、具身学习
**具身学习旨在使智能体在与环境互动的过程中获得复杂技能并提升其能力。**通过不断学习和优化技能,智能体能够实现精确决策和实时适应。这种能力可以通过多种学习策略的协调来实现,如图12所示。
图12 具身学习:过程和方法
本部分详细介绍了具身学习的主要方法,包括模仿学习、强化学习、迁移学习和元学习,并探讨大模型如何增强这些方法在具身智能中的应用。
5.1 具身学习方法
具身学习的目标是使智能体能够在整个生命周期中不断学习新任务,适应环境变化。
具身学习可以建模为一个目标条件部分可观测的马尔可夫决策过程,涉及状态、动作、目标、状态转移概率、奖励函数、观测值和折扣因子等元素。
主要学习方法包括:
- 模仿学习(Imitation Learning):通过模仿专家的示范来快速获取初始策略,适用于有高质量数据的任务,但对多样化的演示数据依赖性强,适应新场景的能力有限。
- 强化学习**(****Reinforcement Learning)**:通过试错与环境互动来优化策略,适合动态和不确定的环境,但需要大量样本和计算资源,且设计合适的奖励函数具有挑战性。
- 迁移学习**(****Transfer Learning)**:通过在相关任务之间转移知识来加速学习,提高泛化能力,但存在负迁移的风险,即当任务差异显著时可能导致性能下降。
- 元学习**(****Meta-Learning)**:使智能体学会如何学习,以便在最少数据的情况下快速适应新任务,但需要在多样化的任务中进行大量预训练,建立通用元策略具有挑战性。
5.2 大模型赋能的模仿学习
图13 通过扩散模型或Transformer增强的模仿学习
模仿学习通过模仿专家的示范来快速获取初始策略,但传统方法存在对多样化演示数据依赖性强、适应新场景能力有限等问题。大模型****的出现显著提升了模仿学习的效果,主要方法包括:
- 基于扩散的策略网络:利用扩散模型生成多样的动作轨迹,增强策略的鲁棒性和表现力。例如,Pearce 提出的基于扩散模型的框架通过迭代去噪和加噪优化专家示范,DABC 通过行为克隆预训练基础策略网络并用扩散模型完善动作分布。
- 基于 Transformer 的策略网络:利用 Transformer 的自注意力机制捕捉动作、状态和目标之间的依赖关系,减少中间步骤的误差累积,提高策略的一致性和准确性。例如,RT-1 通过大规模数据集和预训练的视觉-语言模型显著提升了任务泛化能力,ALOHA 利用 Transformer 的编解码结构从多视图图像生成机械臂动作序列。
5.3 大模型赋能的强化学习
图14 大模型赋能的强化学习
强化学习通过与环境的互动来优化策略,但传统方法在构建策略网络和设计奖励函数方面存在限制。大模型的出现为强化学习带来了新的机遇,主要方法包括:
- 奖励函数设计:利用大模型生成奖励信号或奖励函数,减少对手动设计的依赖,捕捉复杂的多模态反馈。例如,L2R 和 Text2Reward 利用 GPT-3 从文本行为提示中生成奖励信号,Eureka 利用 GPT-4 从任务和环境提示中创建密集奖励。
- 策略网络构建:
- 使用扩散模型:通过迭代去噪和加噪模拟复杂的动作分布,增强策略的表达能力。例如,DiffusionQL 使用扩散模型作为基础策略,通过 Q 学习框架训练以最大化价值函数目标。
- 使用基于 Transformer 的架构:利用 Transformer 的自注意力机制捕捉轨迹中的长期依赖性,提高策略的灵活性和准确性。例如,决策 Transformer 将强化学习重新表述为条件序列建模问题,通过监督学习从离线数据集中生成最优动作。
- 使用大语言模型(LLM):利用 LLM 的预训练知识简化离线强化学习任务,提高策略的表达性和适应性。例如,GLAM 使用 LLM 作为策略代理,通过 PPO 在线优化生成可执行的动作序列,LaMo 利用 GPT-2 作为基础策略并进行微调以保留先验知识。
图15 大模型赋能的政策网络建设
六、世界模型
图16 世界模型及其在决策与具身学习中的应用
世界模型是具身智能系统中用于模拟和预测环境动态的关键组件,它为智能体提供了一个内部的环境表示,使其能够在没有实际与环境互动的情况下进行规划和决策。
世界模型在决策和具身学习中起着至关重要的作用,通过预测未来状态和结果,智能体可以更有效地学习和适应复杂环境。
本节详细介绍了世界模型的设计方法及其在决策和具身学习中的应用,探讨了不同类型的模型及其特点。
6.1 世界模型的设计
潜在空间世界模型:
- RSSM:通过像素观测学习动态环境模型,考虑环境的确定性和随机因素。
- PlaNet、Dreamer、Dreamer V2、Dreamer V3:逐步改进 RSSM,通过潜在表示学习行为,提高稳定性和性能。
基于 Transformer 的世界模型:
- IRIS、Genie、TWM、STORM:利用 Transformer 的自注意力机制捕捉长期依赖性,提高预测准确性和训练效率。
基于扩散的世界模型:
- Sora、UniPi、UniSim:通过扩散模型生成高质量的轨迹数据,增强学习过程和适应性。
联合嵌入预测架构:
- JEPA:通过分层规划和自监督学习,提供高效的决策框架。
6.2 决策中的世界模型
模拟验证:
- Nebula、UniSim:通过模拟验证优化决策,减少与真实环境的互动。
知识增强:
- WKM、Agent-Pro、GovSim:通过提供先验知识和动态知识,增强智能体的规划能力。
6.3 在具身学习中的世界模型
状态转换的世界模型:
- RobotDreamPolicy、DayDreamer、SWIM:通过状态转换和微调,提高学习效率和适应性。
世界模型用于数据生成:
- SynthER、MTDiff、VPDD:通过生成高质量的轨迹数据,增强学习过程和减少数据需求。
写在最后
“大模型与物理世界的深度融合正将具身智能推向新的发展高峰,使其成为探索通用人工智能(AGI)最具潜力的路径之一。”
随着技术的不断进步,我们有理由相信,未来的机器人将不再是简单的工具,而是能够真正理解世界、与人类协作的智能伙伴。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。
针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!
配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)