文字转语音TTS在线使用经验

文本转语音TTS

田春峰

1196人浏览 · 2024-04-16 12:30:46

田春峰 · 2024-04-16 12:30:46 发布

文字转语音TTS在线使用经验

2024-04-15 ，今天测试了一下微软 Azure TTS 的新语音引擎，主要测试了英语和中文。

这次 MicroSoft 一共推出了 9 款包括：
美式英语 - en-US-AvaMultilingualNeural 女性
美式英语 - en-US-AndrewMultilingualNeural 男性
美式英语 - en-US-EmmaMultilingualNeural 年轻女性
美式英语 - en-US-BrianMultilingualNeural
德语 - De-DE-FlorianMultilingualNeural
德语 - De-DE-SeraphinaMultilingualNeural
法语 - Fr-FR-RemyMultilingualNeural
法语 - Fr-FR-VivienneMultilingualNeural
中文 - zh-CN-XiaoxiaoMultiligualNeural 。

更多官方消息来源：https://learn.microsoft.com/en-gb/azure/ai-services/speech-service/index-text-to-speech。

很可惜，中文只推出了一个女性的声音。效果可以说是非常好，长时间听也不会有“机械式发音”的那种让人方案的情绪。

我转换了大约 30 多分钟的中文文字音频，觉得其他的语音角色都不需要再选择了，用只用 zh-CN-XiaoxiaoMultiligualNeural 就可以了。

周末花了一点时间把最新版的 TTS 效果集成到了一个在线的工具中：

网址： jcjc.CuoBieZi.net/sitemap/audio/tts

TTS 文本转语音效果截图

我用下面的文字做测试：

如果你在山里经常走捷径，很可能走着走着就会发现没路可走了。
很多时候捷径走着走着就走成了绝路、死路，你不得不重新折返，归零重来。
最关键的是找到一条能长期积累的路。

试听的效果如下：

jcjc-tts-2024_04_15T14_22_49

（视频正在审核中。）

00:30未知来源

这是一段长达 30 秒的视频，听起来的效果，耳朵很舒服，没有那种机械、生硬和维和的感觉。

如果对语音有更高的品质要求，就需要使用MSTTS 的 SSML 语音合成的方法了。下一步准备把：多音字的支持、音色、音调的支持也集成进来。

目前默认的输出格式是：“audio-16khz-32kbitrate-mono-mp3” ，为了节省空间，选择了几乎是效果较差的一个标准。效果最好的是：44.1kHz 标准的，比如：“audio-48khz-192kbitrate-mono-mp3”。

这里有一份权威的参考：

https://learn.microsoft.com/en-us/javascript/api/microsoft-cognitiveservices-speech-sdk/speechsynthesisoutputformat?view=azure-node-latest

文本转语音，如果是文章、短文类的阅读，效果的提升、自定义比较容易实现。如果是小说中人物的对话，这里面感觉有很多可以优化的点。

准备下一篇文章详细聊一下这方面的改进工作。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一

讯飞AI开发者社区

AI革新药物研发：基因组大数据新突破

基因组大数据分析已成为药物研发的核心环节，人工智能（AI）技术通过高效处理海量数据，显著加速了靶点发现、药物筛选和个性化治疗等流程。来源网站：pyklqwq.cn/article/25jNXMc/39830.html。来源网站：pyklqwq.cn/article/25KljJd/61632.html。来源网站：pyklqwq.cn/article/25AECkl/15960.html。来源网站：

讯飞AI开发者社区

多模态上下文工程化落地：提示工程架构师的ROI提升策略

在当今数字化浪潮中，人工智能技术日新月异。多模态数据，即包含文本、图像、音频、视频等多种形式的数据，正变得无处不在。想象一下，我们生活在一个信息丰富多样的世界里，就如同走进了一个大型的多媒体图书馆，每本书可能是文本形式，墙上挂着画作（图像），角落里播放着音乐（音频），还有视频在循环展示各种内容。多模态数据就像这个图书馆里丰富多样的信息载体。对于提示工程架构师而言，如何有效地处理和利用多模态上下文信