腾讯开源歌曲生成模型:SongGeneration
SongGeneration模型基于LeVo框架开发,结合大规模语言模型(LeLM)和音乐编解码器,实现了高质量歌曲生成与多偏好对齐。模型通过混合令牌和双轨令牌处理音频,并转换为高保真音乐。当前提供中文基础版本,即将推出中英文版本。相较于其他开源模型,SongGeneration在音质和个性化需求满足方面表现优异,性能接近行业领先水平。
LeVo 高质量歌曲生成与多偏好对齐
一、模型介绍
本文介绍的 SongGeneration 模型是基于 LeVo(Large-scale Language Model for歌声生成与多偏好对齐)框架开发的高质量歌曲生成模型。它通过结合大规模语言模型(LeLM)和音乐编解码器,实现了对歌曲生成过程中多种偏好的对齐,从而在保持高质量的同时生成符合用户偏好的歌曲。
二、模型架构
SongGeneration 模型的核心架构包括两个主要部分:LeLM 和音乐编解码器。
LeLM
LeLM 是一个大型语言模型,能够并行处理两种类型的音频令牌:混合令牌和双轨令牌。混合令牌用于表示人声和伴奏的组合音频,以实现人声与乐器的和谐统一。而双轨令牌则分别对人声和伴奏进行编码,这有助于提高歌曲生成的质量。
音乐编解码器
音乐编解码器的作用是将双轨令牌重组为高保真度的音乐音频。这意味着在生成过程中,模型能够将经过处理的音频令牌重新转化为用户可听的高质量音乐。
三、模型版本
目前 SongGeneration 提供了以下几个版本:
SongGeneration-base(zh) v20250520
这是该模型的中文基础版本,支持中文歌曲的生成。
SongGeneration-base(zh&en) Coming soon
这是即将推出的中英文基础版本,将支持中英文歌曲的生成。
SongGeneration-full(zh&en) Coming soon
这是即将推出的完整版中英文模型,预计在功能和生成质量上会有进一步提升。
四、模型优势
SongGeneration 模型相较于其他开源音乐生成模型有了显著提升。它不仅提高了生成歌曲的质量,还在多偏好对齐方面表现出色,能够更好地满足不同用户的个性化需求。此外,该模型在性能上与当前最先进的行业系统相当,具有很强的竞争力。
更多推荐
所有评论(0)