学习笔记：《数字媒体技术概论》-4/10 数字语音信号处理技术及应用-中国大学慕课公开课

数字媒体技术概论,spContent=以数字媒体、网络技术与计算机技术相融合而产生的数字媒体技术，已经成为最热门的研究领域之一。如果你想了解数字媒体技术的奥妙，并想从事数字媒体技术相关的工作，请加入我们吧！让我们一起共同领略数字媒体技术的魅力，打下坚实的数字媒体技术基础。共振峰产生过程气流经过声道，声道受到激励而引起共振，使得一部分频率得到强化（产生了尖峰，即为共振峰），另一部分受到衰减。数字媒体

小林今天早睡了咩

876人浏览 · 2022-07-25 12:08:57

小林今天早睡了咩 · 2022-07-25 12:08:57 发布

4-数字语音信号处理技术及应用

4.1-数字语音的基本概念

语音(Speech)：人们讲话时发出的话语。=声音(Voice)+语言(Language)。比如：人发出嗯嗯啊啊的声音就算不上语音
语音的基本声学特性
1. 音强（客观）：声音的强度，由声波的振幅决定
2. 响度（主观）：与音强和频率有关，由人耳听觉特性决定
3. 音长：声音时间上的长短
4. 音调/音高：主要由基音频率决定。音调随频率的变化基本上呈对数关系
  
  基音频率：发音体的最低振动频率
5. 音色/音质：不同声音相互区别的特征，比如：我们能区别出A和B说的语音。体现了人对不同特性声音的主观感觉。主要由谐波/泛音（数量及强度）决定音色
  
  谐波/泛音：频率为基频的整数倍
语音的基本组成
1. 音素(Phoneme): 语音发音的最小单位。任何语言都有元音(Vowel)和辅音(Consonant)两种音素
  1. 元音:音节的主干，从时长和能量的角度，在音节中都占主要部分
    1. 共振峰：元音的重要声学特性，是区分不同元音、不同说话人性别/年龄的重要特征，不同元音对应一组不同频率的共振峰
      
      共振峰产生过程：气流经过声道，声道受到激励而引起共振，使得一部分频率得到强化（产生了尖峰，即为共振峰），另一部分受到衰减
  2. 辅音:只出现在音节的前后两端，时长和能量都很小。根据声带的震动与否分清辅音和浊辅音
    
    元音频谱图（左），清辅音频谱图（右）
听觉掩蔽效应
1. 概念：当两个频率和响度不等的声音作用于人耳时,响度较高的频率成份会影响人耳对响度较低的颁率成份的感受,使其变的不易察觉
2. 应用
  1. 音频编码（感知编码）
  2. 信息隐藏（音频水印）

4.2-数字语音技术主要研究方向

语音信号处理研究方向

语音识别：语音-->文字-->包含的语义
语音合成：文字-->语音
声纹识别：语音-->说话人，计算机能够识别出说出这段语音的人是谁
情感识别：语音-->提取识别出说话人的情绪情感
语音抗噪声技术：“软件+硬件”一体化解决方案
语音评测：按照某种标准度进行评分评测，比如测评普通话
语音编码（≈语音压缩）：尽量高的压缩率、清晰度、还原度进行压缩减少码率
语种识别：判断说的语言/方言
语音特效

4.3-语音识别

基本目标
1. 将语音内容逐词逐句地转换为对应的文字
2. 正确理解语音中所包含的语义和要求
技术难点
1. 方言/口音
2. 背景噪音
3. 口语化问题，不遵循语法
当前研究重点
1. 即兴口语
2. 自然对话
3. 多语种同声翻译
深度学习对于语音识别的语音模型、语言模型、以及整体处理流程等，都带来了巨大的变化，极大地促进了语音识别技术的产品化与普及化

4.4-声纹识别与语音合成

声纹识别
1. 目标：识别是哪个人说的
2. 研究重点：找出说话人声音的个性因素，强调不同人之间的特征差异
3. 类别
  1. 按说话人判定
    1. 说话人辨认：基于一/多段语音识别语音是哪个人说的
    2. 说话人确认：确认某段语音是否是指定的某个人说的
  2. 按语音内容是否限定判定
    1. 文本相关
      1. 操作：所有用户预先读出规定内容，并为每个用户建立声纹模型 --> 在识别时，仍要读出规定内容
      2. 优点：技术实现简单，高识别率
      3. 缺点：应用场景受限
    2. 文本无关
      1. 操作：建立声纹模型和识别时都不限定语音内容
      2. 优点：应用场景灵活
      3. 缺点：技术实现难度高
语音合成技术
1. 目标：将任意生成的文本转换为机器生成的语音，TTS技术
2. 研究重点
  1. 提升端到端（一整个神经网络）的合成速度与可控性
  2. 提升合成语音的情感表现，更加拟人化
  3. 进一步提升合成语音的自然度
语音识别 🆚 说话人识别
1. 语音识别：语音-->文字
2. 说话人识别
  1. 语音 --> 判定是谁说的，但是不翻译内容
  2. 语音 --> 判定是否是某个人/特定几个人说的
3. 应用：语音门禁系统-->说话人识别，判定是否是某一个人说的

若笔记📒存在记录错误，请批评指正！

学习视频来源⬇️

数字媒体技术概论_中国传媒大学_中国大学MOOC(慕课)数字媒体技术概论,spContent=以数字媒体、网络技术与计算机技术相融合而产生的数字媒体技术，已经成为最热门的研究领域之一。如果你想了解数字媒体技术的奥妙，并想从事数字媒体技术相关的工作，请加入我们吧！让我们一起共同领略数字媒体技术的魅力，打下坚实的数字媒体技术基础。,中国大学MOOC(慕课)https://www.icourse163.org/course/CUC-1206705818?tid=1460872446

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方