文字转语音TTS在线使用经验

文字转语音TTS在线使用经验


2024-04-15 ,今天测试了一下微软 Azure TTS 的新语音引擎,主要测试了英语和中文。

这次 MicroSoft 一共推出了 9 款包括:
美式英语 - en-US-AvaMultilingualNeural 女性
美式英语 - en-US-AndrewMultilingualNeural 男性
美式英语 - en-US-EmmaMultilingualNeural 年轻女性
美式英语 - en-US-BrianMultilingualNeural
德语 - De-DE-FlorianMultilingualNeural
德语 - De-DE-SeraphinaMultilingualNeural
法语 - Fr-FR-RemyMultilingualNeural
法语 - Fr-FR-VivienneMultilingualNeural
中文 - zh-CN-XiaoxiaoMultiligualNeural 。

更多官方消息来源:https://learn.microsoft.com/en-gb/azure/ai-services/speech-service/index-text-to-speech。

很可惜,中文只推出了一个女性的声音。效果可以说是非常好,长时间听也不会有“机械式发音”的那种让人方案的情绪。

我转换了大约 30 多分钟的中文文字音频,觉得其他的语音角色都不需要再选择了,用只用 zh-CN-XiaoxiaoMultiligualNeural 就可以了。

周末花了一点时间把最新版的 TTS 效果集成到了一个在线的工具中:

网址:  jcjc.CuoBieZi.net/sitemap/audio/tts

TTS 文本转语音效果截图

我用下面的文字做测试:

如果你在山里经常走捷径,很可能走着走着就会发现没路可走了。
很多时候捷径走着走着就走成了绝路、死路,你不得不重新折返,归零重来。
最关键的是找到一条能长期积累的路。

试听的效果如下:

jcjc-tts-2024_04_15T14_22_49

(视频正在审核中。)

00:30未知来源

这是一段长达 30 秒的视频,听起来的效果,耳朵很舒服,没有那种机械、生硬和维和的感觉。

如果对语音有更高的品质要求,就需要使用MSTTS 的 SSML 语音合成的方法了。下一步准备把:多音字的支持、音色、音调的支持也集成进来。

目前默认的输出格式是:“audio-16khz-32kbitrate-mono-mp3” ,为了节省空间,选择了几乎是效果较差的一个标准。效果最好的是:44.1kHz 标准的,比如:“audio-48khz-192kbitrate-mono-mp3”。

这里有一份权威的参考:

https://learn.microsoft.com/en-us/javascript/api/microsoft-cognitiveservices-speech-sdk/speechsynthesisoutputformat?view=azure-node-latest

文本转语音,如果是文章、短文类的阅读,效果的提升、自定义比较容易实现。如果是小说中人物的对话,这里面感觉有很多可以优化的点。

准备下一篇文章详细聊一下这方面的改进工作。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐