腾讯开源歌曲生成模型：SongGeneration

SongGeneration模型基于LeVo框架开发，结合大规模语言模型(LeLM)和音乐编解码器，实现了高质量歌曲生成与多偏好对齐。模型通过混合令牌和双轨令牌处理音频，并转换为高保真音乐。当前提供中文基础版本，即将推出中英文版本。相较于其他开源模型，SongGeneration在音质和个性化需求满足方面表现优异，性能接近行业领先水平。

Panesle

1005人浏览 · 2025-06-19 11:15:00

Panesle · 2025-06-19 11:15:00 发布

LeVo 高质量歌曲生成与多偏好对齐

一、模型介绍

本文介绍的 SongGeneration 模型是基于 LeVo（Large-scale Language Model for歌声生成与多偏好对齐）框架开发的高质量歌曲生成模型。它通过结合大规模语言模型（LeLM）和音乐编解码器，实现了对歌曲生成过程中多种偏好的对齐，从而在保持高质量的同时生成符合用户偏好的歌曲。

二、模型架构

SongGeneration 模型的核心架构包括两个主要部分：LeLM 和音乐编解码器。

LeLM

LeLM 是一个大型语言模型，能够并行处理两种类型的音频令牌：混合令牌和双轨令牌。混合令牌用于表示人声和伴奏的组合音频，以实现人声与乐器的和谐统一。而双轨令牌则分别对人声和伴奏进行编码，这有助于提高歌曲生成的质量。

音乐编解码器

音乐编解码器的作用是将双轨令牌重组为高保真度的音乐音频。这意味着在生成过程中，模型能够将经过处理的音频令牌重新转化为用户可听的高质量音乐。

三、模型版本

目前 SongGeneration 提供了以下几个版本：

SongGeneration-base(zh) v20250520

这是该模型的中文基础版本，支持中文歌曲的生成。

SongGeneration-base(zh&en) Coming soon

这是即将推出的中英文基础版本，将支持中英文歌曲的生成。

SongGeneration-full(zh&en) Coming soon

这是即将推出的完整版中英文模型，预计在功能和生成质量上会有进一步提升。

四、模型优势

SongGeneration 模型相较于其他开源音乐生成模型有了显著提升。它不仅提高了生成歌曲的质量，还在多偏好对齐方面表现出色，能够更好地满足不同用户的个性化需求。此外，该模型在性能上与当前最先进的行业系统相当，具有很强的竞争力。
在这里插入图片描述

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，