3D内容生成迎来巨变!腾讯混元开源Voyager,为VR/游戏开发注入新动能

在通往通用人工智能(AGI)的漫长征途中,让AI理解和生成高度一致、可自由探索的3D世界,已成为通往“世界模型”的关键一步。近日,腾讯混元团队在这一领域掷下了一枚重磅炸弹。

9月2日,腾讯混元宣布开源其3D世界模型系列的最新力作——HunyuanWorld-Voyager(混元Voyager)
这不仅是对此前开源的混元世界模型1.0的强大扩展,更是业界首个支持原生3D重建的超长漫游世界模型,一举突破了传统视频生成在空间一致性和探索范围上的局限。

这意味着,AI不再仅仅是生成一段扁平的2D视频,而是能构建一个真正具有三维几何一致性的“数字世界”。用户可以通过键盘或摇杆像玩3A游戏一样,自由控制视角进行无限漫游,并能将生成的高保真序列直接导出为3D点云,无需任何后处理工具。这为虚拟现实、游戏开发、物理仿真等领域带来了前所未有的想象空间。

核心亮点

首创原生3D重建与无损输出

该模型在视频生成过程中深度融合深度预测,首创了“3D输入-3D输出”的闭环,能直接将生成的高保真序列无损导出为3D点云,彻底摆脱了对COLMAP等后处理工具的依赖,极大简化了3D内容创作流程。

基于世界缓存机制的无限连贯漫游

通过创新的、可实时更新的3D世界缓存机制,它为扩散模型提供几何指导并持续自我增强,从而支撑生成长距离、空间高度一致且可无限扩展探索范围的超长漫游视频。

多功能一体与全面开源

在提供核心的无限漫游能力之外,其生成的深度信息还额外支持3D物体纹理生成、视频风格化编辑等多种应用,展现出强大的空间智能潜力,并且模型已在GitHub和Hugging Face上全面开源,推动行业共同进步。

模型评估

该模型在斯坦福大学李飞飞团队推出的世界模型权威基准测试WorldScore中荣登综合能力榜首,全面超越现有开源方案,在视频生成与3D重建双任务中均展现出卓越性能。不仅在动态视频生成任务上表现突出,更在视频级3D重建任务中取得了突破性进展,彰显了其在三维空间理解与生成领域的领先优势。

在和现有开源方法的比较中,Voyager可根据生成的视频帧重建出更加精确的3DGS场景模型。

应用

  • 游戏开发:快速生成开放世界的3D场景原型和剧情动画,大幅降低美术制作成本。
  • 虚拟现实:直接创建可用于VR沉浸式体验和AR精准交互的高一致性3D环境。
  • 自动驾驶:为仿真测试生成大量真实、多样的3D街道场景,高效训练感知算法。
  • 机器人训练:提供无限多样的室内外3D虚拟环境,加速其导航与操作技能学习。
  • 建筑设计:将草图或描述快速转化为可漫游的3D方案视频,助力设计与展示。
  • 电商展示:为家居等商品自动生成置于不同3D场景中的展示视频,提升营销效果。
  • 影视制作:为旧视频修复赋予3D深度信息,实现2D转3D重制或沉浸式观看。
  • 内容创作:通过文本生成可编辑的3D场景与纹理,赋能用户自主创造个性化内容。

社区地址

OpenCSG社区:
https://opencsg.com/models/AIWizards/HunyuanWorld-Voyager

hf社区:
https://huggingface.co/tencent/HunyuanWorld-Voyager

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论
由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐