1.概述

AI语音通常包含以下几点能力:语音听写、语音转写、语音合成、中英文翻译。

2.语音听写

2.1 能力描述

在人机对话场景下,把语音转换成对应的文字信息,让机器能够“听懂”人类语言。

2.2 能力特性

  1. 超低时延
    实时转换,时延低于300ms;
  2. 精细文字时间戳
    支持转换结果在“词语”粒度级别时间戳功能;
  3. 智能文本后处理
    支持基于对话场景对标点、数字等的友好交互展示;

2.3 技术规格

  1. 处理效率
    语音输入速度达180字/分;
  2. 音频参数
    采样率16K、采样精度16bit、单声道;
  3. 音频编解码格式
    speex-wb、raw、opus、opus-wb、opus-swb;
  4. 音频时长
    单段音频时长≤60s;
  5. 返回形式
    Json格式字符串。

2.4 应用场景

  1. 语音输入法
    使用输入法时,将语音信息转成文字信息,提升用户的交互体验及操作效率。
  2. 智能助手
    将用户语音指令转换成机器语言,用于后续的语义分析。

3. 语音转写

3.1 能力概述

在人人对话场景下,将音频流数据实时转换程文字流数据结果。

3.2 能力特性

  1. 低时延
    时延低于700ms;
  2. 精细文字时间戳
    支持转换结果在“词语”粒度级别时间戳功能;
  3. 智能文本后处理
    支持智能文本段落划分、标点符号添加、语义规整等;

3.3 技术规格

  1. 音频参数
    采样率16KHz、采样精度16bit、单声道、中文普通话;
  2. 音频编解码格式
    speex-wb、raw、opus、opus-wb、opus-swb;
    3.返回形式
    Json格式字符串
  3. 返回内容
    句子启止时间、整句的中间及最终结果;词语启止时间、词语识别内容。

3.4 应用场景

1.视频/电话会议
将视频以及电话会议中的发言内容实时识别为文字,防止错过重要会议内容,提高会议效率。
2.客服中心
将客户的电话语音内容实时识别为文字,作为客服答疑的参考记录。

4. 非实时语音转写

4.1 能力概述

将长段音频数据转成文本数据,为信息处理和数据挖掘提供基础。

4.2 能力特性

  1. 智能文本后处理
    支持智能文本段落划分、标点符号添加、语义规整等;
  2. 文字格式智能转换
    对结果中出现的数字、日期、时间等内容格式化成规整的文本。

4.3 技术规格

  1. 音频参数
    采样率16K、采样精度16bit、单声道;
  2. 音频编解码格式
    speex-wb、raw、opus、opus-wb、opus-swb;
  3. 音频时长
    单端音频时长小于5小时;
  4. 返回形式
    Json格式字符串。
  5. 返回内容
    句子启止时间、整句的中间及最终结果;词语启止时间、词语识别内容。

4.4 应用场景

1.客服质检
将坐席通话转成文字,帮助电话质检和信息同步,为数据挖掘提供原始数据。
2.会议/访谈记录
将会议和访谈音频转成文字存稿,便于后期信息检索和整理。
3.语音鉴别
从转写出的文杰结果中搜索匹配的相关词汇,对指定内容进行高效鉴别。

5. 语音合成

5.1 能力概述

将文字信息转化为声音信息,无限接近人声效果,给应用配上了“嘴巴”。

5.2 能力特性

  1. 接近人声的语音质量
    文本转换为流畅、清晰、自然和具有表现力的语音数据—高质量合成音频的自然度和清晰度已经超过了普通人的朗读水平;
  2. 语音参数自定义调节
    支持对语速、音量、音调等多种语音参数的自定义调节。

5.3 技术规格

  1. 处理时延
    20路平均响应时间2-3s;
  2. 语音质量
    MOS超过4分;
  3. 音频格式
    采样率8/16K、采样精度16bit、单声道,解码格式raw/speex/speex-wb;
  4. 文本合成上限
    单文本最长不超过60KB,超过上限需分段合成;
    5.输入内容
    文本内容,内容格式UTF-8;
    6.发音人
    中文男女声发音人各一个,英文男女声发音人各一个。

5.4 应用场景

1.智能助手
合成语音自然顺畅,让人机交互更加友好;
2.智能外呼
将文字信息转化成清晰、流畅的合成语音,降低重复工作的同时保障服务质量。

6 中英文翻译

6.1 能力概述

中文普通话与英文文本互译

6.2 能力特性

  1. 语义通畅
    翻译结果贴近真实表述习惯。

6.3 技术规格

  1. 处理时延
    时延1s以内;

6.4 应用场景

  1. 文档资料翻译
    辅助快速翻译说明书、专利、合同等文档资料;
  2. 跨语言信息获取
    获取海量优质英文信息内容。
Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐