自然语言处理之LSTM、GRU

自然语言处理之LSTM一级目录二级目录三级目录一级目录二级目录三级目录

西西先生666

791人浏览 · 2021-08-28 17:02:58

西西先生666 · 2021-08-28 17:02:58 发布

自然语言处理之LSTM、GRU

一、前言
二、LSTM: (Long short-term memory)
三、GRU: (Gate Recurrent Unit)

一、前言

循环神经网络RNN，无法处理长距离依赖问题，针对此问题，提出了LSTM和GRU。

二、LSTM: (Long short-term memory)

2.1 LSTM结构

在这里插入图片描述

上图中左侧为RNN，右侧为LSTM结构图：RNN在隐藏层中只传递一个状态值 $h$ ，LSTM不仅传递 $h$ ，还传递一个状态值 $c$ ，每一个隐藏层中的神经元都接收上一时刻传递的 $h_{t-1}$ 和 $c_{t-1}$ ，经过计算得到 $h_{t}$ 和 $c_{t}$ 再传入下一时刻。

在这里插入图片描述

上图是LSTM的某一隐藏层的局部结构，其中包含3个门控结构：红色方框的遗忘门、绿色方框的输入门、紫色方框的输出门，3个门中包含3个sigmoid函数和2和tanh函数。
使用sigmoid函数的原因是：sigmoid函数能够将输入映射到[0,1]空间中，那么咱们就可以根据映射之后的概率对于上一时刻传递的信息进行有选择的去除，保留和输出。比如sigmoid函数的值为1也就是门的全开状态，则代表所有的信息都被保留，如果sigmoid函数为0也就是门的全闭状态，则代表所有的信息都不被保留。
使用tanh函数是：为了对数据进行处理，映射到[-1,1]的空间。
说明：公式中 $\cdot$ 表示矩阵相乘， $\otimes$ 表示点乘。

2.1.1 遗忘门

在这里插入图片描述
$f_t=\sigma(W_f·[h_{t-1},x_t]+b_f)\tag{1}$

将 $t - 1$ 时刻传入的 $h_{t-1}$ 与时刻 $t$ 的输入 $x_t$ 进行拼接，然后通过权值矩阵 $W_f$ 转换后，加上偏置 $b_f$ ，最后通过sigmoid函数映射为 $[0, 1]$ 范围内，形成遗忘门；
然后通过遗忘门 $f_t$ 对上一时刻传入的 $c_{t-1}$ 进行有选择的遗忘，将 $c_{t-1}$ 与 $f_t$ 进行点乘，得到去除一部分信息后的遗忘输出，所以遗忘门的输出值为：
$C_{t-1}\otimes f_t\tag{2}$

2.1.2 输入门

在这里插入图片描述
$i_t=\sigma(W_i·[h_{t-1},x_t]+b_i)\tag{3}$

$\tilde{C_t}=tanh(W_C·[h_{t-1},x_t]+b_C)\tag{4}$

输入门的输出值为：
$i_t\otimes\tilde{C_t}\tag{5}$
将遗忘门的输出值和输入门的输出值加起来，就可以得到 $C_t$ ：
$C_t=C_{t-1}\otimes f_t+i_t\otimes\tilde{C_t}\tag{6}$
$C_t$ 中保留了 $t - 1$ 时刻传入的部分信息和 $t$ 时刻传入的经过筛选后的信息。

2.1.3 输出门

在这里插入图片描述
$o_t=\sigma(W_o·[h_{t-1},x_t]+b_o)\tag{7}$
$h_t=o_t\otimes tanh(C_t)\tag{8}$

这样就计算出来t时刻的所有输出值， $h_t$ 和 $C_t$ ，然后 $h_t$ 和 $C_t$ 又可以传入到下一时刻来进行循环操作了。
计算 $t$ 时刻的输出 $y_t$ ：
$y_t=g(V·h_t)\tag{9}$
上式中 $V$ 是隐藏层到输出层之间的权值矩阵， $g ()$ 是激活函数，如果是二分类采用 $s i g m o i d$ ，多分类则采用 $s o f t m a x$ 。

2.2 LSTM如何缓解RNN梯度消失问题

RNN导致梯度消失的原因：因为tanh和sigmoid函数的导数均小于1，一系列小于1的数连乘，连乘的数一多，连乘的结果就有很大概率为0，那么参数便不能进行更新了，从而导致的梯度消失现象发生。
虽然RNN也可以通过调整Ws来使得连乘接近于1，但是RNN是通过乘以Ws来调节，乘法数值变化较快，比较敏感，参数很难调，一不小心就超过了上界发生梯度爆炸，达不到下界不发生梯度消失。而LSTM是通过加上bf来调节，来降低梯度消失的风险，调节起来更容易，相对于RNN较好。所以之前也只是说了LSTM能相对于RNN缓解梯度消失的问题，并不能完全消除。
类比到LSTM中：
将 $f_t, i_t, \tilde{C_t}$ 带入 $C_t$ 中可得：
$C_t=\sigma(W_f·[h_{t-1},x_t]+b_f)C_{t-1}+\sigma(W_i·[h_{t-1},x_t]+b_i)tanh(W_C·[h_{t-1},x_t]+b_C)\tag{10}$
$C_t$ 对 $C_{t-1}$ 求偏导结果为：
$\frac{\partial C_t}{\partial C_{t-1}}=\sigma(W_f·[h_{t-1},x_t]+b_f)\tag{11}$
上式中取值范围为 $[0, 1]$ 之间，在实际参数更新过程中，可以控制 $b_f$ 较大，使得该值更接近于1，这样即使在多次连乘的情况下，梯度也不会消失。

2.3 LSTM优缺点

缺点：包含 $W_f,W_i,W_o,W_c,b_f,b_i,b_o,b_c,V$ 等9个参数，参数较多，调参对机器性能要求比较高；
优点：有更多的参数对于模型的调节更加精确。

三、GRU: (Gate Recurrent Unit)

3.1 GRU结构

3.2 GRU内部结构

在这里插入图片描述

3.2.1 reset重置门

$r_t=\sigma(W_r·[h_{t-1},x_t]+b_r)\tag{12}$
得到重置门 $r_t$ 后，将 $r_t$ 与上一时刻传入的 $h_{t-1}$ 进行点乘，得到重置之后的数据:
$h_{t-1}'=h_{t-1}\otimes r_t\tag{13}$
然后将得到的 $h_{t-1}'$ 与 $x_t$ 进行拼接：
$h'=tanh(W·[h_{t-1}',x_t]+b)\tag{14}$
这里的 $h^{'}$ 包含了输入信息 $x_t$ ，和经过选择后的上一时刻的重要信息 $h_{t-1}'$ ，这样达到了记忆当前状态信息的目的。

3.2.2 update更新门

$z_t=\sigma(W_z·[h_{t-1},x_t]+b_z)\tag{15}$
$z_t$ 就是更新门，更新门同时进行遗忘和记忆的方式如下：
$h^t=z_t\otimes h^{t-1}+(1-z_t)\otimes h'\tag{16}$

其中 $z_t\otimes h^{t-1}$ ：表示对原本隐藏状态的选择性遗忘， $z_t$ 看做是遗忘门，遗忘 $h_{t-1}$ 中不重要的信息；
$(1-z_t)\otimes h'$ ：表示对包含当前节点信息的 $h^{'}$ 进行选择性记忆；
$h^t=z_t\otimes h^{t-1}+(1-z_t)\otimes h'$ ：遗忘上一时刻中 $h^{t-1}$ 的某些信息，并记忆当前节点输入的某些维度信息。
式（16）中遗忘的权重 $z$ 和记忆的权重 $1 - z$ 是互补的，遗忘多少信息，就弥补多少信息。

3.3 GRU总结

GRU只有两个门，相应地参数也就比LSTM要少，效率要高，但是结果并没有多大的区别。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

1747张YOLO标注奶牛水牛识别数据集：精准标注跨场景动物检测模型训练专用计算机视觉数据集，助力智慧农业与畜牧业AI算法研发

讯飞AI开发者社区

YashanDB在医疗行业的应用与机遇

随着医疗行业数据规模的持续扩展和智能医疗应用的深化，数据库系统的性能和可靠性成为医疗信息化的核心竞争力。未来，随着医疗场景对人工智能、大数据实时分析等技术的不断融合，YashanDB将持续深化HTAP能力，增强分布式协作与资源整合能力，通过不断优化系统性能和安全保障，推动医疗行业数据管理水平的全面提升，为智慧医疗服务的广泛应用奠定坚实基础。YashanDB在医疗行业中，基于强大的逻辑架构，实现了客

讯飞AI开发者社区

Qoder账号被冻结？三步操作轻松解封

Qoder账号冻结原因及解封指南：账号冻结常见原因包括免费试用超限、多账号切换、操作超额及系统误判。解封步骤为登录后点击ReactivateAccount按钮，注意激活后额度清零。开发者提示：避免多号操作、合理分配调用量、保留误封记录。Qoder的封禁机制旨在防止滥用，开发者提前了解规则即可规避风险。遇到冻结按官方流程操作即可恢复使用。#Qoder# #人工智能#