Unity AR RT-Voice文字转语音进一步研究和bug调试

在Vuforia中的Image Target中，在图像被找到处，点“+”，然后将SpeechText拖入，选择Speak方法。有几家供应商为 Android 系统提供文本转语音（TTS）引擎，每个供应商可能支持不同的语言，具有不同的语音质量。目前使用的RT-Voice，其中，如果我不需要一运行系统就发音，就要把每个创建的SpeechText的Play On Start取消掉。提供免费的印度语

2301_79412376

1468人浏览 · 2025-06-09 15:23:34

2301_79412376 · 2025-06-09 15:23:34 发布

一、Unity AR识别物体播放音频

1.物体识别播放音频

2.点击UI的按钮播放音频

二、使用RT-Voice文字转语音的一些问题及解决办法

1.在电脑中运行，一切正常。打包到Android平台，没有声音。

（1）安卓平台的设置和限制

（3）Google TTS的几种voice

（4）解决办法

2.安卓手机可以播放音频之后，会自己在语音内容的前后加一个speak

一、Unity AR识别物体播放音频

1.物体识别播放音频

想要实现识别图像后，显示模型的同时，自动播放英文单词读音。

目前使用的RT-Voice，其中，如果我不需要一运行系统就发音，就要把每个创建的SpeechText的Play On Start取消掉。

方法：

（1）右键创建一个SpeechText，在Text中填入需要语音合成的文本。

（2）为了好管理，我将对应的SpeechText放在各自的Image Target子物体中。在Vuforia中的Image Target中，在图像被找到处，点“+”，然后将SpeechText拖入，选择Speak方法。

测试，实现了识别图像后再播放音频。

2.点击UI的按钮播放音频

之前的文字转语音博文最后介绍了。

二、使用RT-Voice文字转语音的一些问题及解决办法

1.在电脑中运行，一切正常。打包到Android平台，没有声音。

没搜到解决办法，查看了RT-Voice官方说明文档。我的解决办法在（4）

（1）安卓平台的设置和限制

2.5.4. Android

• 一次只有一个本地语音（可以通过生成音频来解决）

• 音量对生成的音频没有影响（可以通过 AudioSource 调整）

• 最低 Android 版本：4.0.3 （API 15） – SSML 需要 6.0 （API 23）及更高版本

• 每个语音的最大字符数：3'999 （>5 分钟）

（2）推荐的几种TTS（官网文档中有跳转的超链接，下面我只贴上我使用的Google TTS）

6.3. Android

Android 上的默认引擎通常是来自 Google 的引擎：com.google.android.tts

有几家供应商为 Android 系统提供文本转语音（TTS）引擎，每个供应商可能支持不同的语言，具有不同的语音质量。下面是引擎名称的列表。请访问他们的页面以了解他们支持的语言、价格等。

重要提示：大多数引擎在 Huawei App Gallery 中不可用。

·Google TTS（https://play.google.com/store/apps/details?id=com.google.android.tts）

如果您的设备上不存在，请先安装 Google TTS。免费，现在预装在大多数设备上，也可从 Google Play 下载。中等质量，除非使用网络语音生成。

·RHVoice

免费的引擎和语音。当前支持的语言：英语（美国）、世界语、格鲁吉亚语、吉尔吉斯语、葡萄牙语（巴西）、俄语、鞑靼语和乌克兰语。RHVoice 中质量最好的语音是俄语。

·Vocalizer TTS

优质声音，免费应用程序，声音可供购买，但提供可用声音的一周免费试用。

·Acapela

免费应用程序，语音可供购买。中等质量。

·CereProc TTS

Google Play 提供的优质语音。

·eSpeak Free

提供 40 多种语言的平庸“机器人”声音。

·Hear2Read

提供免费的印度语 TTS 语音（卡纳达语、泰卢固语、旁遮普语、泰米尔语、古吉拉特语、马拉地语、梵语，将来可能会更多）。质量好。

（3）Google TTS的几种voice

（4）解决办法

我先在手机上谷歌商城里下载Google TTS。

注意：需要科学上网，似乎还需要一个谷歌邮箱账号。

之后进入手机的“设置”菜单。
选择“语言和输入法” > “文字转语音（TTS）输出”。
在“首选引擎”中选择“Google文字转语音引擎”。

再次测试，有声音。

2.安卓手机可以播放音频之后，会自己在语音内容的前后加一个speak

解决办法：

在 RT-Voice的Advanced Settings 中：

勾选 Auto Clear Tags

它会自动清除 <speak>、<break> 等 SSML 标签，防止它们被当作文字读出来

现在就是只读我们写的Text里的内容了。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

通用人工智能(AGI)发展现状：从科幻到现实的跨越

通用人工智能(AGI)正从科幻走向现实。2025年，多模态融合、递归推理引擎和能效革命三大技术突破推动AGI发展，国际科技巨头和中国企业加速布局。AI Agent在金融、医疗、教育等领域广泛应用，企业自动化效率显著提升。然而，数据隐私、算法透明度和就业替代等伦理挑战亟待解决。未来，AGI将向多模态量子计算融合、具身智能和世界模型方向发展，需要建立人机协作新模式和完善的政策法规框架。AGI既带来机遇

讯飞AI开发者社区

C++与人工智能框架

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它