声音分帧是把一段语音按照一定的时间间隔分割成一系列的帧,每一帧的时长一般为15毫秒。提取语音特征主要包括梅尔频率倒谱系数(MFCC)和短时能量特征(STE),可以帮助模型更好地捕捉语音特征,从而更准确地比对语音特征。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐