LeVo 高质量歌曲生成与多偏好对齐

一、模型介绍

本文介绍的 SongGeneration 模型是基于 LeVo(Large-scale Language Model for歌声生成与多偏好对齐)框架开发的高质量歌曲生成模型。它通过结合大规模语言模型(LeLM)和音乐编解码器,实现了对歌曲生成过程中多种偏好的对齐,从而在保持高质量的同时生成符合用户偏好的歌曲。

二、模型架构

SongGeneration 模型的核心架构包括两个主要部分:LeLM 和音乐编解码器。

LeLM

LeLM 是一个大型语言模型,能够并行处理两种类型的音频令牌:混合令牌和双轨令牌。混合令牌用于表示人声和伴奏的组合音频,以实现人声与乐器的和谐统一。而双轨令牌则分别对人声和伴奏进行编码,这有助于提高歌曲生成的质量。

音乐编解码器

音乐编解码器的作用是将双轨令牌重组为高保真度的音乐音频。这意味着在生成过程中,模型能够将经过处理的音频令牌重新转化为用户可听的高质量音乐。

三、模型版本

目前 SongGeneration 提供了以下几个版本:

SongGeneration-base(zh) v20250520

这是该模型的中文基础版本,支持中文歌曲的生成。

SongGeneration-base(zh&en) Coming soon

这是即将推出的中英文基础版本,将支持中英文歌曲的生成。

SongGeneration-full(zh&en) Coming soon

这是即将推出的完整版中英文模型,预计在功能和生成质量上会有进一步提升。

四、模型优势

SongGeneration 模型相较于其他开源音乐生成模型有了显著提升。它不仅提高了生成歌曲的质量,还在多偏好对齐方面表现出色,能够更好地满足不同用户的个性化需求。此外,该模型在性能上与当前最先进的行业系统相当,具有很强的竞争力。
在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐