学习笔记:《数字媒体技术概论》-4/10 数字语音信号处理技术及应用-中国大学慕课公开课
数字媒体技术概论,spContent=以数字媒体、网络技术与计算机技术相融合而产生的数字媒体技术,已经成为最热门的研究领域之一。如果你想了解数字媒体技术的奥妙,并想从事数字媒体技术相关的工作,请加入我们吧!让我们一起共同领略数字媒体技术的魅力,打下坚实的数字媒体技术基础。共振峰产生过程气流经过声道,声道受到激励而引起共振,使得一部分频率得到强化(产生了尖峰,即为共振峰),另一部分受到衰减。数字媒体
·
目录
4-数字语音信号处理技术及应用
4.1-数字语音的基本概念
- 语音(Speech):人们讲话时发出的话语。=声音(Voice)+语言(Language)。比如:人发出嗯嗯啊啊的声音就算不上语音
- 语音的基本声学特性
- 音强(客观):声音的强度,由声波的振幅决定
- 响度(主观):与音强和频率有关,由人耳听觉特性决定
- 音长:声音时间上的长短
- 音调/音高:主要由基音频率决定。音调随频率的变化基本上呈对数关系
基音频率:发音体的最低振动频率
- 音色/音质:不同声音相互区别的特征,比如:我们能区别出A和B说的语音。体现了人对不同特性声音的主观感觉。主要由谐波/泛音(数量及强度)决定音色
谐波/泛音:频率为基频的整数倍
- 语音的基本组成
- 音素(Phoneme): 语音发音的最小单位。任何语言都有元音(Vowel)和辅音(Consonant)两种音素
- 元音:音节的主干,从时长和能量的角度,在音节中都占主要部分
- 共振峰:元音的重要声学特性,是区分不同元音、不同说话人性别/年龄的重要特征,不同元音对应一组不同频率的共振峰
共振峰产生过程:气流经过声道,声道受到激励而引起共振,使得一部分频率得到强化(产生了尖峰,即为共振峰),另一部分受到衰减
- 共振峰:元音的重要声学特性,是区分不同元音、不同说话人性别/年龄的重要特征,不同元音对应一组不同频率的共振峰
- 辅音:只出现在音节的前后两端,时长和能量都很小。根据声带的震动与否分清辅音和浊辅音
元音频谱图(左),清辅音频谱图(右)
- 元音:音节的主干,从时长和能量的角度,在音节中都占主要部分
- 音素(Phoneme): 语音发音的最小单位。任何语言都有元音(Vowel)和辅音(Consonant)两种音素
- 听觉掩蔽效应
- 概念:当两个频率和响度不等的声音作用于人耳时,响度较高的频率成份会影响人耳对响度较低的颁率成份的感受,使其变的不易察觉
- 应用
- 音频编码(感知编码)
- 信息隐藏(音频水印)

4.2-数字语音技术主要研究方向
语音信号处理研究方向
- 语音识别:语音-->文字-->包含的语义
- 语音合成:文字-->语音
- 声纹识别:语音-->说话人,计算机能够识别出说出这段语音的人是谁
- 情感识别:语音-->提取识别出说话人的情绪情感
- 语音抗噪声技术:“软件+硬件”一体化解决方案
- 语音评测:按照某种标准度进行评分评测,比如测评普通话
- 语音编码(≈语音压缩):尽量高的压缩率、清晰度、还原度进行压缩减少码率
- 语种识别:判断说的语言/方言
- 语音特效

4.3-语音识别
- 基本目标
- 将语音内容逐词逐句地转换为对应的文字
- 正确理解语音中所包含的语义和要求
- 技术难点
- 方言/口音
- 背景噪音
- 口语化问题,不遵循语法
- 当前研究重点
- 即兴口语
- 自然对话
- 多语种同声翻译
- 深度学习对于语音识别的语音模型、语言模型、以及整体处理流程等,都带来了巨大的变化,极大地促进了语音识别技术的产品化与普及化

4.4-声纹识别与语音合成
-
声纹识别
- 目标:识别是哪个人说的
- 研究重点:找出说话人声音的个性因素,强调不同人之间的特征差异
- 类别
- 按说话人判定
- 说话人辨认:基于一/多段语音识别语音是哪个人说的
- 说话人确认:确认某段语音是否是指定的某个人说的
- 按语音内容是否限定判定
- 文本相关
- 操作:所有用户预先读出规定内容,并为每个用户建立声纹模型 --> 在识别时,仍要读出规定内容
- 优点:技术实现简单,高识别率
- 缺点:应用场景受限
- 文本无关
- 操作:建立声纹模型和识别时都不限定语音内容
- 优点:应用场景灵活
- 缺点:技术实现难度高
- 文本相关
- 按说话人判定
- 语音合成技术
- 目标:将任意生成的文本转换为机器生成的语音,TTS技术
- 研究重点
- 提升端到端(一整个神经网络)的合成速度与可控性
- 提升合成语音的情感表现,更加拟人化
- 进一步提升合成语音的自然度
- 语音识别 🆚 说话人识别
- 语音识别:语音-->文字
- 说话人识别
- 语音 --> 判定是谁说的,但是不翻译内容
- 语音 --> 判定是否是某个人/特定几个人说的
- 应用:语音门禁系统-->说话人识别,判定是否是某一个人说的


若笔记📒存在记录错误,请批评指正!
学习视频来源⬇️
更多推荐
所有评论(0)