《第二十二篇》Cross-Attention：注意力机制详解-代码实现和公式详解《二》

本文详细介绍了Cross-Attention的原理、公式和实现。Cross-Attention用于Transformer解码器和Encoder-Decoder结构，通过查询向量（Q）与键、值向量（K、V）的交互实现序列对齐。核心公式为softmax(QK^T/√d_k)V，其中Q来自Decoder，K、V来自Encoder。文章还给出了多头注意力机制公式和PyTorch实现代码，包括投影计算、注意

要努力啊啊啊

1286人浏览 · 2025-06-04 18:14:01

要努力啊啊啊 · 2025-06-04 18:14:01 发布

Cross-Attention 公式详解

1. 定义

Cross-Attention（交叉注意力）常用于 Transformer 解码器、Encoder-Decoder 结构中，用于将一个序列（如目标语言）对另一个序列（如源语言）的表示进行对齐和关注。

2. 公式结构

我们有：
• 查询向量来自 Decoder 的当前输入（Q）
• 键和值向量来自 Encoder 的输出（K 和 V）

3. 公式

Cross-Attention 核心计算过程

输入维度：
- 查询矩阵： $\in \mathbb{R}^{T_q \times d}$
- 键矩阵： $\in \mathbb{R}^{T_k \times d}$
- 值矩阵： $\in \mathbb{R}^{T_k \times d}$
计算注意力权重：

$\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{Q K^\top}{\sqrt{d_k}} \right) V$

$Q$ 是 Decoder 的投影输出
$K, V$ 是 Encoder 的输出进行线性变换后的结果
$d_k$ 是键向量的维度（通常是 $d / h$ ， $h$ 是头数）

多头注意力（Multi-Head Attention）：

$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O$

其中每个 head 的计算：

$\text{head}_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i)$

$WiQ,WiK,WiV∈Rd×dhW^Q_i, W^K_i, W^V_i \in \mathbb{R}^{d \times d_h}$ 是每个头独立的投影矩阵
$WO∈Rhdh×dW^O \in \mathbb{R}^{hd_h \times d}$ 是输出投影矩阵

4. 使用场景说明

•	Encoder-Decoder：Decoder 的每一层利用 Cross-Attention 获取对 Encoder 输出的关注
•	多模态：文本 Query + 图像 Key/Value，实现跨模态融合
•	检索增强：Query 结合外部知识库的 Key/Value 进行对齐匹配

5.代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F

class CrossAttention(nn.Module):
    def __init__(self, embed_dim, num_heads, dropout=0.1):
        super(CrossAttention, self).__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads

        assert embed_dim % num_heads == 0, "embed_dim must be divisible by num_heads"

        # Linear projection for Q, K, V
        self.q_proj = nn.Linear(embed_dim, embed_dim)
        self.k_proj = nn.Linear(embed_dim, embed_dim)
        self.v_proj = nn.Linear(embed_dim, embed_dim)

        # Output projection
        self.out_proj = nn.Linear(embed_dim, embed_dim)

        self.dropout = nn.Dropout(dropout)

    def forward(self, query, key, value, mask=None):
        """
        query: [batch_size, tgt_len, embed_dim] - from decoder
        key:   [batch_size, src_len, embed_dim] - from encoder
        value: [batch_size, src_len, embed_dim] - from encoder
        mask:  [batch_size, tgt_len, src_len] (optional)
        """

        B, T_q, _ = query.size()
        T_k = key.size(1)

        # Project Q, K, V
        Q = self.q_proj(query)  # [B, T_q, embed_dim]
        K = self.k_proj(key)    # [B, T_k, embed_dim]
        V = self.v_proj(value)  # [B, T_k, embed_dim]

        # Split into heads
        Q = Q.view(B, T_q, self.num_heads, self.head_dim).transpose(1, 2)  # [B, heads, T_q, head_dim]
        K = K.view(B, T_k, self.num_heads, self.head_dim).transpose(1, 2)  # [B, heads, T_k, head_dim]
        V = V.view(B, T_k, self.num_heads, self.head_dim).transpose(1, 2)  # [B, heads, T_k, head_dim]

        # Scaled Dot-Product Attention
        scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)  # [B, heads, T_q, T_k]

        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))

        attn = F.softmax(scores, dim=-1)  # [B, heads, T_q, T_k]
        attn = self.dropout(attn)

        context = torch.matmul(attn, V)  # [B, heads, T_q, head_dim]
        context = context.transpose(1, 2).contiguous().view(B, T_q, self.embed_dim)  # [B, T_q, embed_dim]

        output = self.out_proj(context)  # [B, T_q, embed_dim]
        return output

6.使用实例

decoder_query = torch.randn(8, 10, 512)  # 来自 decoder
encoder_key_value = torch.randn(8, 20, 512)  # 来自 encoder

cross_attn = CrossAttention(embed_dim=512, num_heads=8)
out = cross_attn(decoder_query, encoder_key_value, encoder_key_value)
print(out.shape)  # [8, 10, 512]

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一

讯飞AI开发者社区

AI革新药物研发：基因组大数据新突破

基因组大数据分析已成为药物研发的核心环节，人工智能（AI）技术通过高效处理海量数据，显著加速了靶点发现、药物筛选和个性化治疗等流程。来源网站：pyklqwq.cn/article/25jNXMc/39830.html。来源网站：pyklqwq.cn/article/25KljJd/61632.html。来源网站：pyklqwq.cn/article/25AECkl/15960.html。来源网站：

讯飞AI开发者社区

多模态上下文工程化落地：提示工程架构师的ROI提升策略

在当今数字化浪潮中，人工智能技术日新月异。多模态数据，即包含文本、图像、音频、视频等多种形式的数据，正变得无处不在。想象一下，我们生活在一个信息丰富多样的世界里，就如同走进了一个大型的多媒体图书馆，每本书可能是文本形式，墙上挂着画作（图像），角落里播放着音乐（音频），还有视频在循环展示各种内容。多模态数据就像这个图书馆里丰富多样的信息载体。对于提示工程架构师而言，如何有效地处理和利用多模态上下文信