【人工智能99问】门控循环单元（GRU）的结构和原理是什么

门控循环单元（GRU）是一种改进的循环神经网络（RNN），通过引入重置门（reset gate）和更新门（update gate）解决传统RNN的梯度消失问题。此代码可直接用于序列建模任务（如时间序列预测或自然语言处理），通过堆叠多层 GRU 或结合其他模块（如全连接层）扩展功能。（Reset Gate）组成，用于解决传统RNN的梯度消失或爆炸问题。$\sigma$为Sigmoid函数，$W_z$

dsgdongshiguang

739人浏览 · 2025-09-04 22:08:27

dsgdongshiguang · 2025-09-04 22:08:27 发布

GRU 的结构和原理

门控循环单元（GRU）是一种改进的循环神经网络（RNN），通过引入重置门（reset gate）和更新门（update gate）解决传统RNN的梯度消失问题。其核心结构如下：

更新门（z_t）：决定当前状态保留多少历史信息。
重置门（r_t）：控制前一状态对候选状态的影响。
候选状态（h̃_t）：基于重置门和前一状态计算的新状态。
最终状态（h_t）：通过更新门融合候选状态和前一状态。

数学公式如下：

更新门：$z_t = \sigma(W_z \cdot [h_{t-1}, x_t])$
重置门：$r_t = \sigma(W_r \cdot [h_{t-1}, x_t])$
候选状态：$\tilde{h}t = \tanh(W \cdot [r_t \odot h{t-1}, x_t])$
最终状态：$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

GRU 的代码实现

以下是一个基于 PyTorch 的 GRU 实现示例，包含初始化、前向传播和简单训练逻辑：

import torch
import torch.nn as nn

class GRU(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(GRU, self).__init__()
        self.hidden_size = hidden_size
        
        # 更新门参数
        self.W_z = nn.Linear(input_size + hidden_size, hidden_size)
        # 重置门参数
        self.W_r = nn.Linear(input_size + hidden_size, hidden_size)
        # 候选状态参数
        self.W_h = nn.Linear(input_size + hidden_size, hidden_size)
        
    def forward(self, x, h_prev):
        # 拼接输入和前一状态
        combined = torch.cat((x, h_prev), dim=1)
        
        # 计算更新门和重置门
        z_t = torch.sigmoid(self.W_z(combined))
        r_t = torch.sigmoid(self.W_r(combined))
        
        # 计算候选状态
        combined_reset = torch.cat((x, r_t * h_prev), dim=1)
        h_tilde = torch.tanh(self.W_h(combined_reset))
        
        # 计算最终状态
        h_t = (1 - z_t) * h_prev + z_t * h_tilde
        
        return h_t

# 示例使用
input_size = 10
hidden_size = 20
gru = GRU(input_size, hidden_size)

# 模拟输入数据 (batch_size=1, input_size=10)
x = torch.randn(1, input_size)
h_prev = torch.zeros(1, hidden_size)

h_next = gru(x, h_prev)
print(h_next.shape)  # 输出: torch.Size([1, 20])

关键功能说明

初始化参数：定义了更新门、重置门和候选状态的权重矩阵。
前向传播：依次计算门控信号和状态更新，最终输出新状态。
输入输出维度：输入为 (batch_size, input_size)，输出为 (batch_size, hidden_size)。

此代码可直接用于序列建模任务（如时间序列预测或自然语言处理），通过堆叠多层 GRU 或结合其他模块（如全连接层）扩展功能。

门控循环单元（GRU）的基本结构

GRU是循环神经网络（RNN）的一种变体，由更新门（Update Gate）和重置门（Reset Gate）组成，用于解决传统RNN的梯度消失或爆炸问题。其核心结构如下：

隐藏状态 $h_t$：传递序列信息的核心变量。
更新门 $z_t$：控制当前输入和前一时刻隐藏状态的融合比例。
重置门 $r_t$：决定前一时刻隐藏状态对当前候选状态的影响程度。

核心公式与计算步骤

更新门计算：
$z_t = \sigma(W_z \cdot [h_{t-1}, x_t])$
$\sigma$为Sigmoid函数，$W_z$为权重矩阵。
重置门计算：
$r_t = \sigma(W_r \cdot [h_{t-1}, x_t])$
候选隐藏状态生成：
$\tilde{h}t = \tanh(W \cdot [r_t \odot h{t-1}, x_t])$
$\odot$表示逐元素乘法，$\tanh$用于非线性变换。
隐藏状态更新：
$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$
通过更新门平衡历史信息与当前输入。

GRU与LSTM的区别

简化结构：GRU合并了LSTM的输入门和遗忘门为更新门，去除了细胞状态（Cell State），仅保留隐藏状态。
计算效率：参数更少，训练速度通常更快，但在某些任务上可能牺牲部分长期记忆能力。

应用场景

自然语言处理（如机器翻译、文本生成）
时间序列预测（股票价格、传感器数据）
语音识别与合成

通过门控机制，GRU能有效捕捉时间序列中的长期依赖关系，同时降低训练复杂度。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI技术：定义、应用与未来趋势

人工智能（Artificial Intelligence，AI）指通过计算机模拟人类智能的技术，涵盖机器学习、自然语言处理、计算机视觉等领域，目标是实现感知、推理、学习、规划和决策等能力。

讯飞AI开发者社区

machine-learning-101 (机器学习 101)

从Scikit-learn工具库实践开始，重点理解偏差-方差权衡、过拟合/欠拟合等概念。下一步可探索决策树、KNN等基础算法。机器学习是人工智能的核心领域，通过算法让计算机从数据中学习规律，实现预测或决策。

讯飞AI开发者社区

深度学习——残差神经网络案例

在当今人工智能蓬勃发展的时代，图像分类技术已经成为计算机视觉领域的核心基础。从医疗影像分析到自动驾驶车辆，从智能安防到工业质检，图像分类算法正以前所未有的速度改变着我们的生活和工作方式。本文将深入探讨如何使用PyTorch框架和ResNet架构构建一个高效、准确的图像分类系统，为您提供从理论到实践的完整解决方案。