基于Attention的神经网络

基于Attention的神经网络1、回顾Seq2Seq模型Seq2Seq是由一个编码器encoder和解码器decoder组成，encoder输入的是英语，decoder把英语翻译成其他语言。encoder每次读入一个英语词向量x，在状态h中积累输入信息，最后一个状态hm积累了所有的向量x的信息，encoder输出最后一个状态信息hm，把之前的状态向量都扔掉。decoder初始状态S0等于enco

总写bug的程序员

530人浏览 · 2021-04-19 19:30:43

总写bug的程序员 · 2021-04-19 19:30:43 发布

基于Attention的神经网络

1、回顾Seq2Seq模型

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NGzx6Oag-1618831515794)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210418104712265.png)]$

Seq2Seq是由一个编码器encoder和解码器decoder组成，encoder输入的是英语，decoder把英语翻译成其他语言。encoder每次读入一个英语词向量x，在状态h中积累输入信息，最后一个状态hm积累了所有的向量x的信息，encoder输出最后一个状态信息hm，把之前的状态向量都扔掉。

在这里插入图片描述

decoder初始状态S0等于encoder最后一个状态hm，其中hm包含了输入句子的所有信息。

在这里插入图片描述

之后decoder就像文本生成器一样，逐子生成德语，这句德语就是模型生成的翻译，可惜Seq2Seq有一个明显的缺陷，如果输入的句子很长，那么encoder会记不住完整的句子。

2、模型比较

在这里插入图片描述

明显看出使用Seq2Seq模型，当单词量超过20个左右，该模型就开始下降，而引入了注意力模型之后，明显优与未使用注意力模型（注：BLEU是评价机器翻译的好坏）

3、引入注意力机制的Seq2Seq模型

1、使用注意力机制，Seq2Seq不会遗忘

2、attention可以告诉decoder应该关注encoder哪些状态

3、attention可以大幅提高准确率

4、attention的计算量很大

在这里插入图片描述

上面说到decoder的初始状态S0等于encoder的最后一个状态hm

在这里插入图片描述

encoder的所有状态h1、h2、····、hm都要保存下来，所以这里要计算S0与每一个h的相关性

在这里插入图片描述

用上面的公式来计算相关性

用encoder的第h个状态与decoder初始状态S0的相关性，结果即为ai,即为权重

未完待续··········

技术共进，成长同行——讯飞AI开发者社区

更多推荐

Python学习——安装配置python环境+入门_python安装

Python 是一种广泛使用的高级编程语言，由 Guido van Rossum 于 1991 年首次发布。它设计的哲学强调代码的可读性、简洁和易用。Python 支持多种编程范式，包括面向对象、结构化编程以及功能编程。这使得 Python 成为数据科学、Web 开发、自动化测试、人工智能等多个领域的首选语言。Python 的语法简单且易学，即使你是编程新手，也能在短时间内掌握并开始编写程序。Py

讯飞AI开发者社区

大数据在物流行业的使用

大数据已经将物流从一个“黑盒”状态转变为一个高度透明、可预测、可优化的智能网络。它不再仅仅是辅助工具，而是成为了现代物流企业的核心竞争力和神经系统。未来的发展趋势将是与物联网、人工智能、区块链等技术更深度的融合，最终实现整个供应链的自适应、自决策和自优化，即“智慧供应链”。

讯飞AI开发者社区

第71篇：AI+能源：智能电网、新能源预测与节能优化

摘要：本文系统性地深入探讨人工智能在能源领域的革命性应用。我们首先解析智能电网（Smart Grid）的核心机制——AI如何融合实时电力数据（发电、输电、配电、用电）、气象信息、用户行为，通过强化学习（Reinforcement Learning）与优化算法（如线性规划、混合整数规划），实现电力的动态调度、供需平衡、故障预测与自愈，构建更安全、高效、弹性的电力系统。