**![加粗样式](https://i-blog.csdnimg.cn/direct/96f5844bf7404acfa6a48d3d7bb33e53.png)
**

Canopy Labs Orpheus Speech 模型总结

模型介绍

Orpheus 是由 Canopy Labs 开发的一系列基于 Llama 架构的语音生成模型,旨在实现人类级别的语音合成,能够表达情感且具有同理心。
提供了四种不同规模的预训练和微调模型:Medium(3B 参数)、Small(1B 参数)、Tiny(400M 参数)、Nano(150M 参数)。

技术亮点

自然语音生成:即使在很小的模型尺寸下,也能生成高质量、令人愉悦的语音。
零样本语音克隆:预训练模型未经过语音克隆目标训练,但凭借大量预训练数据,能够实现自然的零样本语音克隆。
情感和语调控制:通过少量高质量的微调示例,可以指导模型以特定情感说话。
实时流式推理:支持实时输出流式传输,具有约 200 毫秒的低延迟,通过输入流式传输到模型的 KV 缓存,可将延迟降低至约 25-50 毫秒。

模型架构

以 Llama-3b 为基础架构,训练数据包括超过 10 万小时的英语语音数据和数十亿个文本标记。
采用非流式(CNN 基础)的标记化器,并对解码器进行了简单滑动窗口修改,以实现无弹跳的流式传输。

使用场景

生产环境:微调模型可在生产中使用,适用于需要语音合成的各种应用场景。
开发与研究:提供基础模型和示例微调脚本,便于开发者进行进一步的研究和开发工作。
Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐