transformer构建

二，采用attention和self-attention搭建深度神经网络multi-head self-attention此时输出1个序列c1,c2,…cm.此时为single-headL个单头注意力网络组成，每个单头注意力网络由三个参数。每个单头自注意不会共享参数。共3l个参数。multi-head attention搭建深度神经网络的encoder采用multi-head self-atte

看不见我呀

401人浏览 · 2022-05-25 18:32:23

看不见我呀 · 2022-05-25 18:32:23 发布

二，采用attention和self-attention搭建深度神经网络

multi-head self-attention

此时输出1个序列c1,c2,…cm.此时为single-head

L个单头注意力网络组成，每个单头注意力网络由三个参数。

每个单头自注意不会共享参数。共3l个参数。

multi-head attention

搭建深度神经网络的encoder

采用multi-head self-attention + fc 搭建encoder。

注意：此处fc会共享参数。

512*m：

M为输入序列的长度；512为输入x的维度。

由于block的输入和输出的维度相同，可以采用skip connection

每个block有两层。每个block之间不会共享参数。输入和输出的维度是一样的。

搭建深度神经网络的decoder网络

注意此处：x’,c,u,z均为512维向量。

最终的transformer模型

Transformer与rnn的对比

因此，tranformer与rnn相似，因此以前怎么用rnn，现在就怎么用transformer模型。

总结

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方

讯飞AI开发者社区

cover

【愚公系列】《人工智能70年》044-数据科学崛起（安全与隐私，硬币的另一面）

讯飞AI开发者社区

cover

通用智能体：面向数百万多风格公众号的轻量自适应风格化人工智能助手

讯飞AI开发者社区

所有评论(0)

查看更多评论

看不见我呀

已为社区贡献15条内容