音频信号的预加重：提升语音清晰度

预加重是一种信号处理技术，主要用于增强音频信号中的高频成分。由于人类语音的频谱特性，尤其是在辅音和音调的表达上，高频成分对于语音的清晰度至关重要。然而，在录音和传输过程中，这些高频成分往往会受到衰减。预加重通过在信号处理的早期阶段增强这些成分，帮助改善后续处理的效果。

Niuguangshuo

1128人浏览 · 2025-07-07 20:32:44

Niuguangshuo · 2025-07-07 20:32:44 发布

一、预加重介绍

预加重的原理

预加重通常通过一个简单的一阶高通滤波器实现，其数学表达式为：
$\alpha \cdot x[n-1]$

其中：

$y [n]$ 是预加重后的信号。
$x [n]$ 是原始信号。
$α\alpha$ 是预加重系数，通常取值在 0.9 到 1.0 之间。

频率响应分析

为了理解预加重如何增强高频成分，我们可以分析其频率响应。通过对上述公式进行傅里叶变换，可以得到滤波器的频率响应。

1. 离散时间傅里叶变换（DTFT）

对信号进行DTFT，得到频域表示：
$Y(ejω)=X(ejω)−α⋅X(ejω)e−jωY(e^{j\omega}) = X(e^{j\omega}) - \alpha \cdot X(e^{j\omega}) e^{-j\omega}$

这里， $X(ejω)X(e^{j\omega})$ 是输入信号的频谱， $Y(ejω)Y(e^{j\omega})$ 是输出信号的频谱。

2. 频率响应

将公式整理，可以得到：

$Y(ejω)=X(ejω)(1−αe−jω)Y(e^{j\omega}) = X(e^{j\omega}) \left(1 - \alpha e^{-j\omega}\right)$

这里， $H(ejω)=1−αe−jωH(e^{j\omega}) = 1 - \alpha e^{-j\omega}$ 是滤波器的频率响应。

频率响应的幅度分析

为了理解预加重对不同频率成分的影响，我们可以分析频率响应 $H(ejω)H(e^{j\omega})$ 的幅度。

1. 幅度响应

幅度响应可以表示为：
$∣H(ejω)∣=∣1−αe−jω∣|H(e^{j\omega})| = |1 - \alpha e^{-j\omega}|$

通过展开，可以得到：
$∣H(ejω)∣=(1−αcos⁡(ω))2+(αsin⁡(ω))2|H(e^{j\omega})| = \sqrt{(1 - \alpha \cos(\omega))^2 + (\alpha \sin(\omega))^2}$

2. 低频和高频的影响

低频（ $ω≈0\omega \approx 0$ ）:
- 当 $ω\omega$ 接近 0 时， $∣H(ejω)∣|H(e^{j\omega})|$ 的值接近于 $\alpha$ ，这意味着低频成分会被衰减。
高频（ $ω≈π\omega \approx \pi$ ）:
- 当 $ω\omega$ 接近 $π\pi$ 时， $∣H(ejω)∣|H(e^{j\omega})|$ 的值接近于 $\alpha$ ，这意味着高频成分会被增强。

预加重的效果

通过上述分析，我们可以得出以下结论：

高频增强: 预加重滤波器的设计使得高频成分在输出信号中占据更大的比重，而低频成分则受到衰减。这是因为高频信号的变化速度较快，预加重滤波器通过减去前一个样本的影响，增强了当前样本的高频成分。
信号特性: 预加重的效果使得语音信号中的高频特征更加明显，从而提高了语音的清晰度和可懂度。

预加重的应用

预加重在多个领域中具有重要的应用价值：

语音识别: 在语音识别系统中，预加重可以提高系统对高频特征的敏感度，从而改善识别性能。
音频编码: 在音频编码中，预加重可以帮助提高编码效率，减少高频成分的失真。
通信系统: 在语音通信中，预加重可以提高语音的清晰度，增强通话质量。

二、代码示例

在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt
import librosa
import librosa.display
import soundfile as sf  # 导入 soundfile 库

# 读取 WAV 文件
signal, sample_rate = librosa.load('ori_audio.wav', sr=None)  # sr=None 保持原采样率

# 将信号幅度转换为 0 到 1 之间
signal = signal / np.max(np.abs(signal))

# 预加重参数
alpha = 0.97  # 预加重系数

# 预加重处理
pre_emphasized_signal = np.zeros_like(signal)
pre_emphasized_signal[0] = signal[0]  # 保持第一个样本不变
for n in range(1, len(signal)):
    pre_emphasized_signal[n] = signal[n] - alpha * signal[n - 1]

# 可视化原始信号和预加重后的信号
plt.figure(figsize=(12, 12))

# 原始信号时域
plt.subplot(4, 1, 1)
plt.plot(signal)
plt.title('Original Signal (Time Domain)')
plt.xlabel('Sample Index')
plt.ylabel('Amplitude')
plt.grid()

# 预加重后的信号时域
plt.subplot(4, 1, 2)
plt.plot(pre_emphasized_signal)
plt.title('Pre-emphasized Signal (Time Domain)')
plt.xlabel('Sample Index')
plt.ylabel('Amplitude')
plt.grid()

# 原始信号频谱
plt.subplot(4, 1, 3)
D = librosa.stft(signal)
librosa.display.specshow(librosa.amplitude_to_db(np.abs(D), ref=np.max), sr=sample_rate, x_axis='time', y_axis='log')
plt.title('Original Signal (Frequency Spectrum)')
plt.colorbar(format='%+2.0f dB')
plt.grid()

# 预加重后的信号频谱
plt.subplot(4, 1, 4)
D_pre = librosa.stft(pre_emphasized_signal)
librosa.display.specshow(librosa.amplitude_to_db(np.abs(D_pre), ref=np.max), sr=sample_rate, x_axis='time', y_axis='log')
plt.title('Pre-emphasized Signal (Frequency Spectrum)')
plt.colorbar(format='%+2.0f dB')
plt.grid()

plt.tight_layout()
plt.show()

# 保存预加重后的信号
sf.write('pre_emphasized_audio.wav', pre_emphasized_signal, sample_rate)

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方