循环神经网络及其存在的问题

传统的文本处理任务一般将tfidf向量作为特征输入，这样做存在一个问题就是忽略了文本序列中每个单词的顺序。同时在神经网络例如BP建模过程中通常接受的是一个固定的向量，当输入变长的文本需要先通过滑动窗口的形式转换成一个固定向量，虽然这样可以捕捉一些局部信息，但是两个长距离单词之间的依赖关系难以捕捉到。因此，未解决上述问题，循环神经网络（RNN）诞生，RNN可以很好的解决变长的文本数据和有序的输入序列

十三吖

1850人浏览 · 2021-12-19 16:37:36

十三吖 · 2021-12-19 16:37:36 发布

因此，未解决上述问题，循环神经网络（RNN）诞生，RNN可以很好的解决变长的文本数据和有序的输入序列。可以对文章中从前到后的单词进行顺序编码，将前面有用的信息存储在状态向量，从而拥有一定的记忆能力，可以更好的理解之后的文本。网络结构如下

$U$ 为输入到隐层的权重矩阵， $W$ 为隐层从上一时刻到下一时刻的状态转移矩阵， $V$ 为隐层到输出层的权重矩阵。

RNN的求解可以采用基于BPTT（基于时间的反向传播）算法实现。如果将RNN按照时间展开成T层的前馈神经网络，和普通的反向传播算法基本没有区别。RNN设计初衷是捕获长距离输入之间的依赖，但是实践发现RNN并不能成功的捕捉到长距离的依赖关系，原因在于深度神经网络中的梯度消失和梯度爆炸现象。

传统的神经网络可以表示成连乘的形式

$∂nett∂net1=∂nett∂nett−1∂nett−1∂nett−2...∂net2∂net1\frac{\partial net_t}{\partial net_1} = \frac{\partial net_t}{\partial net_{t-1}} \frac{\partial net_{t-1}}{\partial net_{t-2}} ... \frac{\partial net_{2}}{\partial net_1}$

其中 $net_t = Ux_t + Wh_{t-1}$ , $h_t = f(net_t)$ , $y = g(Vh_t)$ , $∂nett∂nett−1=∂nett∂ht−1∂ht−1∂nett−1=W⋅f′(nett)\frac{\partial net_t}{\partial net_{t-1}} = \frac{\partial net_t}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial net_{t-1}} = W·f^{'}(net_t)$

由于预测误差会按照网络进行反向传播，很容易想到，依赖于我们的激活函数和网络参数，如果参数矩阵中的值太大或者激活函数为Relu等，会产生梯度爆炸。如果参数矩阵中的值太大或使用sigmoid/tanh等，会产生梯度消失。

梯度消失比梯度爆炸受到了更多的关注有两方面的原因。

其一，梯度爆炸容易发现，梯度值会变成NaN，导致程序崩溃。
其二，用预定义的阈值裁剪梯度可以简单有效的解决梯度爆炸问题。梯度消失出现的时候不那么明显而且不好处理。

梯度消失如何解决？

长短时记忆模型LSTM
门控单元 GRU
合适的初始化矩阵W
正则化
选择ReLU而不是sigmoid和tanh作为激活函数

梯度爆炸如何解决？

梯度剪裁，梯度大于某个阈值进行等比收缩
修正激活函数等

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～

算法工程师面试那些事儿

技术共进，成长同行——讯飞AI开发者社区

更多推荐

从大数据到智能分析：未来科技的跨越式进步

未来，人工智能将不仅仅是数据的分析工具，它将成为决策过程中的核心力量，甚至在某些领域，AI可能会代替人工完成整个决策过程。我们可以预见，在不久的将来，智能分析将能够对海量数据进行深入挖掘，并通过自我学习和自我优化，不断提高分析的精准度和效率。在医疗领域，AI可以通过分析大量的医学影像和病历数据，帮助医生提高诊断的准确性，甚至在某些情况下，AI已经能够做到比人类医生更准确的诊断。首先，数据隐私问题日

讯飞AI开发者社区

Python从零实现线性回归详解

以下是为您撰写的“人工智能与机器学习：Python从零实现线性回归模型”技术文章大纲。大纲结构清晰，分为引言、理论基础、实现步骤、代码详解和结论等部分，确保逻辑流畅，适合从零开始的读者。内容基于真实技术原理，强调手动实现（不使用scikit-learn等库），并使用Python代码和数学公式（遵循LaTeX格式：行内公式如$y = mx + b$，独立公式单独成段）。

讯飞AI开发者社区

GEO搜索优化：AI时代精准获客的全新法则（新手必学）

通过GEO搜索优化，企业可以利用地理位置的数据，结合AI技术的优势，帮助自己在激烈的市场竞争中脱颖而出。举个简单的例子，如果你经营的是一家餐馆，客户在手机上搜索“附近的餐馆”，搜索引擎会通过GEO搜索优化技术，推荐离客户最近的餐厅。如果你的餐厅在当地做了良好的SEO优化，并且配合GEO搜索优化，那么你的餐馆就有更大的机会出现在搜索结果的前面，从而吸引更多顾客。随着技术的不断发展，尤其是人工智能（A