1. 音频分析

  1. 音频原始数据形式:8k16bitpcm;
  2. 频率范围:60HZ~3400HZ;
  3. 三角窗数量:15组;
  4. 提取filter bank特征,并观察特征分布特点;
  5. 进一步提取MFCC特征;
  6. 求取特征三阶差分并进行离线CMVN(cepstral mean and variance normalization,CMVN);
  7. 语音信号是一个非稳态、时变的信号,但是在“短时间”范围内可以认为语音信号是稳态、时不变的。在分帧过程中,往往设置在相邻两帧之间有一部分重叠。(帧移) 一般认为“短时间”范围为10~30ms,按采样频率为8kHZ来算,因此每一帧长为80-240个采样点,帧移为80个采样点。

2. Filter bank提取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. MFCC提取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 三阶差分

在这里插入图片描述在这里插入图片描述
代码:
MFCC
+qq:1095982611; 80% discount

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐