AI语音典型能力及参数描述
AI语音典型能力及参数
·
文章目录
1.概述
AI语音通常包含以下几点能力:语音听写、语音转写、语音合成、中英文翻译。
2.语音听写
2.1 能力描述
在人机对话场景下,把语音转换成对应的文字信息,让机器能够“听懂”人类语言。
2.2 能力特性
- 超低时延
实时转换,时延低于300ms; - 精细文字时间戳
支持转换结果在“词语”粒度级别时间戳功能; - 智能文本后处理
支持基于对话场景对标点、数字等的友好交互展示;
2.3 技术规格
- 处理效率
语音输入速度达180字/分; - 音频参数
采样率16K、采样精度16bit、单声道; - 音频编解码格式
speex-wb、raw、opus、opus-wb、opus-swb; - 音频时长
单段音频时长≤60s; - 返回形式
Json格式字符串。
2.4 应用场景
- 语音输入法
使用输入法时,将语音信息转成文字信息,提升用户的交互体验及操作效率。 - 智能助手
将用户语音指令转换成机器语言,用于后续的语义分析。
3. 语音转写
3.1 能力概述
在人人对话场景下,将音频流数据实时转换程文字流数据结果。
3.2 能力特性
- 低时延
时延低于700ms; - 精细文字时间戳
支持转换结果在“词语”粒度级别时间戳功能; - 智能文本后处理
支持智能文本段落划分、标点符号添加、语义规整等;
3.3 技术规格
- 音频参数
采样率16KHz、采样精度16bit、单声道、中文普通话; - 音频编解码格式
speex-wb、raw、opus、opus-wb、opus-swb;
3.返回形式
Json格式字符串 - 返回内容
句子启止时间、整句的中间及最终结果;词语启止时间、词语识别内容。
3.4 应用场景
1.视频/电话会议
将视频以及电话会议中的发言内容实时识别为文字,防止错过重要会议内容,提高会议效率。
2.客服中心
将客户的电话语音内容实时识别为文字,作为客服答疑的参考记录。
4. 非实时语音转写
4.1 能力概述
将长段音频数据转成文本数据,为信息处理和数据挖掘提供基础。
4.2 能力特性
- 智能文本后处理
支持智能文本段落划分、标点符号添加、语义规整等; - 文字格式智能转换
对结果中出现的数字、日期、时间等内容格式化成规整的文本。
4.3 技术规格
- 音频参数
采样率16K、采样精度16bit、单声道; - 音频编解码格式
speex-wb、raw、opus、opus-wb、opus-swb; - 音频时长
单端音频时长小于5小时; - 返回形式
Json格式字符串。 - 返回内容
句子启止时间、整句的中间及最终结果;词语启止时间、词语识别内容。
4.4 应用场景
1.客服质检
将坐席通话转成文字,帮助电话质检和信息同步,为数据挖掘提供原始数据。
2.会议/访谈记录
将会议和访谈音频转成文字存稿,便于后期信息检索和整理。
3.语音鉴别
从转写出的文杰结果中搜索匹配的相关词汇,对指定内容进行高效鉴别。
5. 语音合成
5.1 能力概述
将文字信息转化为声音信息,无限接近人声效果,给应用配上了“嘴巴”。
5.2 能力特性
- 接近人声的语音质量
文本转换为流畅、清晰、自然和具有表现力的语音数据—高质量合成音频的自然度和清晰度已经超过了普通人的朗读水平; - 语音参数自定义调节
支持对语速、音量、音调等多种语音参数的自定义调节。
5.3 技术规格
- 处理时延
20路平均响应时间2-3s; - 语音质量
MOS超过4分; - 音频格式
采样率8/16K、采样精度16bit、单声道,解码格式raw/speex/speex-wb; - 文本合成上限
单文本最长不超过60KB,超过上限需分段合成;
5.输入内容
文本内容,内容格式UTF-8;
6.发音人
中文男女声发音人各一个,英文男女声发音人各一个。
5.4 应用场景
1.智能助手
合成语音自然顺畅,让人机交互更加友好;
2.智能外呼
将文字信息转化成清晰、流畅的合成语音,降低重复工作的同时保障服务质量。
6 中英文翻译
6.1 能力概述
中文普通话与英文文本互译
6.2 能力特性
- 语义通畅
翻译结果贴近真实表述习惯。
6.3 技术规格
- 处理时延
时延1s以内;
6.4 应用场景
- 文档资料翻译
辅助快速翻译说明书、专利、合同等文档资料; - 跨语言信息获取
获取海量优质英文信息内容。
更多推荐
所有评论(0)