【云馨AI-大模型】阿里开源万相Wan2.1-VACE：开启视频生成大模型平民化时代

2025年5月14日，阿里云推出的Wan2.1 VACE模型套件标志着AI视频生成领域的重大突破。该套件通过Apache2.0协议开源，集成了文生视频、图生视频、视频编辑等六大核心功能，重新定义了行业标准。Wan2.1采用创新的动态图变换器架构和线性噪声轨迹FlowMatching范式，实现了1080P无限长视频的高效编解码，并在VBench评测中以86.22%的总分超越商业方案。此外，T2V-1

rundreamsFly

759人浏览 · 2025-05-15 09:36:38

rundreamsFly · 2025-05-15 09:36:38 发布

2025年5月14日注定成为AI视频生成领域的历史性节点——阿里云正式推出Wan2.1 VACE模型套件，将完整的视频创建与编辑能力通过Apache2.0协议全面开源。这个集文生视频、图生视频、视频编辑等六大核心功能于一身的开源方案，正在重新定义AI视频创作的行业标准。

一、技术突破：架构创新铸就SOTA性能

万相Wan2.1采用自研的动态图变换器（DiT）架构与线性噪声轨迹FlowMatching范式，在因果3DVAE技术的加持下实现了1080P无限长视频的高效编解码。其创新的分块处理机制将内存占用降低29%，使得14B模型在生成复杂运动视频时仍能保持实时响应。在VBench权威评测中，该模型以86.22%总分超越Sora、Luma等商业方案，在动态表现、多物体交互等关键指标上达到行业顶尖水平。

二、消费级部署：1.3B模型重构创作生态

面向大众开发者的T2V-1.3B模型突破性实现8.19GB显存占用：

在RTX 4090显卡上4分钟生成480P视频
支持普通笔记本电脑开发调试
完整保留中英文文字生成等核心功能
这种「旗舰级性能+入门级硬件」的组合，使得个人开发者也能创作出媲美专业团队的视频内容。阿里云同步开源的四款模型（T2V-14B/I2V-14B-720P等）形成完整的解决方案矩阵，覆盖从学术研究到商业落地的全场景需求。

三、多模态革命：六大功能重构创作流程

Wan2.1 VACE的创新在于将视频生成与编辑能力整合进单一模型：

文生视频：精准解析长文本指令，实现镜头移动等专业级控制
图生视频：支持720P高分辨率转换，保留原始画面细节
视频重绘：动态修改场景元素而不影响整体连贯性
局部编辑：实现像素级对象替换与特效添加
背景延展：智能扩展画面空间维度
时长延展：突破视频时长限制的连续性生成
这种全功能集成大幅简化了传统视频制作中需要多工具协作的复杂流程。

四、中文场景突破：本土化创新的里程碑

作为首个原生支持中文的顶流视频模型，Wan2.1在文字特效生成、文化元素理解等方面展现独特优势：

准确处理成语故事等文化场景
支持书法动画等特色表现形式
深度优化中文语义理解精度
实测显示，在生成「龙舟竞渡」等典型中国元素视频时，模型对画面细节的还原度比英文模型提升37%。

五、开源生态：催化行业创新浪潮

阿里此次开源不仅包含14B/1.3B双参数规格的完整模型权重，还配套提供：

魔搭社区专项支持计划
HuggingFace预训练模型库
GitHub工程化部署指南
这种「核心能力开放+生态体系支撑」的模式，已吸引超过200家机构参与模型调优。某MCN机构反馈，基于Wan2.1开发的短视频生成工具，将内容生产成本降低至传统方式的1/20。

关注微信公众号「云馨AI」，回复「微信」，
无论你是AI爱好者还是初学者，这里都能为你打开AI世界的大门！加入我们，与志同道合的朋友一起探索AI的无限可能，共同拥抱智能未来！

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，