F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

一段话总结

本文提出了 F5-TTS,一种基于流匹配和扩散 Transformer(DiT)的全非自回归文本到语音系统,它无需复杂的时长模型、文本编码器和音素对齐,通过 ConvNeXt 优化文本表示并引入推理时的 Sway Sampling 策略,解决了 E2 TTS 收敛慢和鲁棒性低的问题,实现了更快的训练和推理(RTF 达 0.15),在 10 万小时多语言数据集上训练后,展现出高度自然的零样本能力、无缝代码切换和速度控制效率,且已开源代码和检查点。

在这里插入图片描述

模型结构在这里插入图片描述

详细信息

在这里插入图片描述
在这里插入图片描述

核心指标

在这里插入图片描述
在这里插入图片描述

几个问题

字符和音频的时长对齐是怎么解决的?

在这里插入图片描述
在这里插入图片描述

noise speech masked speech 和 characters 这几个部分细节上是怎么融入模型的?

在这里插入图片描述

局限与展望

在这里插入图片描述

遗留问题

  1. 通过直接尾部 padding 的方式,会导致句子头尾的字符与音频头尾的依赖关系不一致,感觉类似于时长扩展的方式可能会更好?
  2. masked speech(掩码语音)主要是提供了音频 prompt 信息?但是直接mask中间部分,头尾的保留部分会导致信息泄露,是的音频prompt和文本内容不解耦?
  3. 这种通过token(character )和 mel 长度的比值关系来预估推理音频长度,是否合理?会存在什么其他问题吗?
  4. 如何做流式呢?分块怎么分合适?太短会不会影响前后上下文和自然度?太长导致首包和时延有问题?
Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐