机器翻译与实例分析

在本实验中，我们将探索如何使用编码器-解码器结构和注意力机制来实现一个简单的机器翻译系统。具体来说，我们将使用PyTorch框架构建一个翻译器，使用含注意力机制的编码器—解码器来翻译句子，训练模型后进行预测与评价翻译结果。编码器-解码器结构: 我们将介绍编码器如何将输入序列编码为上下文向量，以及解码器如何利用这个上下文向量生成目标语言序列。注意力机制: 我们将详细探讨注意力机制的原理和如何在模型中

Oooct

1301人浏览 · 2024-06-24 20:57:55

Oooct · 2024-06-24 20:57:55 发布

本博客将NLP实验课中《实验13：机器翻译》与《实验14：基于Transformer实现机器翻译（日译中）》结合，展示部分运行结果。

4. 应用“编码器—解码器”和“注意力机制”的机器翻译

5. 示例：使用Transformer和PyTorch的日—中机器翻译模型

5.1 导入库

5.2 获取数据集

5.2 准备标记器

5.3 建立TorchText词汇对象并将句子转换为Torch张量

5.4 创建要在训练期间迭代的DataLoader对象

5.5 Sequence-to-sequence Transformer

前言

在本实验中，我们将探索如何使用编码器-解码器结构和注意力机制来实现一个简单的机器翻译系统。具体来说，我们将使用PyTorch框架构建一个翻译器，使用含注意力机制的编码器—解码器来翻译句子，训练模型后进行预测与评价翻译结果。

我们的目标是理解以下关键概念和步骤：

编码器-解码器结构: 我们将介绍编码器如何将输入序列编码为上下文向量，以及解码器如何利用这个上下文向量生成目标语言序列。
注意力机制: 我们将详细探讨注意力机制的原理和如何在模型中实现，以便模型可以根据输入的不同部分调整其翻译焦点。
实验目标: 我们将通过实验验证我们的机器翻译模型在标准的翻译任务上的性能，并探索注意力机制如何改善翻译质量。

1. 机器翻译简介

1.1 基本概念

机器翻译（Machine Translation, MT）是指利用计算机技术和算法来自动将一种自然语言的文本翻译成另一种自然语言的文本的过程。

这项技术的发展旨在消除语言之间的沟通障碍，使得人们能够更便捷地理解和交流不同语言的信息。机器翻译通过不同的技术路线和应用场景，逐步实现了在多语种、多领域的文本翻译需求中的广泛应用，但也面临着词义准确性、语法流畅性和文化背景等方面的挑战和改进空间。

目前使用最广泛的有Google Translate、百度翻译、网易有道翻译等在线翻译服务。

1.2 翻译模型

基于规则的机器翻译（RBMT）

基于规则的机器翻译是一种利用语言学规则将源语言文本转换为目标语言文本的技术。这些规则通常由语言学家手工编写，覆盖了语法、词汇和其他语言相关的特性。

语言学家需要为源语言和目标语言编写大量的转换规则。这些规则描述了如何根据源语言的语法结构将其转换为目标语言的语法结构。除了语法转换规则，RBMT还依赖于详细的双语词典。这些词典包含了源语言和目标语言之间的单词和短语的对应关系。

然而，这些系统受限于语法复杂性和语言规则的表达能力，无法涵盖所有语言现象，导致翻译质量不稳定，且系统难以维护。

统计机器翻译（SMT）

统计机器翻译基于大规模的双语语料库，通过统计模型学习翻译规则和搭配频率，包括词对齐、短语提取、语言模型和调序模型等步骤。SMT对数据的依赖性较强，适用于语料充足的语种和领域。

这种方法在一定程度上提高了翻译的准确性和流畅度，使它成为近年来的主流技术。

神经机器翻译（NMT）

随着深度学习和神经网络的发展，神经网络机器翻译逐渐取代了SMT成为主流。NMT利用端到端的神经网络模型，特别是递归神经网络、长短时记忆网络或Transformer结构来直接学习源语言和目标语言之间的映射关系，可以更好地处理长距离依赖和语义信息，提高了翻译的准确性和流畅度。

在第二部分，我们主要通过基于神经网络的机器翻译来介绍Encoder-Decoder结构和注意力机制。

1.3 评价方法

通过自动评估方法，可以评判机器翻译的效果好坏。自动评估通过利用计算机自动生成翻译质量的评分，常见的方法包括：

1.3.1 BLEU

BLEU分数是机器翻译中最常用的自动评估方法。它是基于n-gram的精度评估方法，通过比较机器翻译输出和多个参考翻译之间的n-gram重叠来工作。

具体来说，设词数为 𝑛 的子序列的精度 $p_{n}$ ，它为预测序列与标签序列匹配词数为 𝑛 的子序列的数量与预测序列中词数为 𝑛 的子序列的数量之比。举个例子，假设标签序列为𝐴、𝐵、𝐶、𝐷、𝐸、𝐹，预测序列为𝐴、𝐵、𝐵、𝐶、𝐷，那么 $p_{1}=4/5,p_{2}=3/4,p_{3}=1/3,p_{4}=0$ 。

设 $len_{\mathrm{label}}len_{\mathrm{pred}}$ 分别为标签序列和预测序列的词数，那么，BLEU的定义为：

$\exp\left(\min\left(0,1-\frac{len_{\mathrm{label}}}{len_{\mathrm{pred}}}\right)\right)\prod_{n=1}^kp_n^{1/2^n}$ .

示例：计算下列结果的BLEU值。

参考翻译：The cat is on the mat.
机器翻译：A cat sits on the mat.

将两个句子分别分成 1-gram 和 2-gram：

参考翻译 1-gram: {The, cat, is, on, the, mat}
参考翻译 2-gram: {The cat, cat is, is on, on the, the mat}
机器翻译 1-gram: {A, cat, sits, on, the, mat}
机器翻译 2-gram: {A cat, cat sits, sits on, on the, the mat}

计算匹配的 n-gram 数量：

1-gram 匹配度 = 匹配的1-gram数量 / 机器翻译的总1-gram数量 = 4 / 6 = 0.6667.
2-gram 匹配度 = 匹配的2-gram数量 / 机器翻译的总2-gram数量 = 5 / 5 = 1.

计算 BLEU 分数：

BLEU 通过计算几何平均值来结合 1-gram 至 4-gram 的匹配度，但对于这里的简单示例，我们只用 1-gram 和 2-gram 的匹配度。

使用上一小节的定义，对于我们的例子：

计算得到，BLEU = ≈ 0.915

由以上结果知：评分约为 0.915。这表明机器翻译结果在 1-gram 和 2-gram 的匹配度上表现良好，但仍存在一些差异。

1.3.2 NIST

NIST是一种改进的 BLEU 方法，加入了不同 n-gram 的权重。

1.3.3 TER

TER是一种计算机算法，测量机器生成的翻译与参考翻译之间的编辑距离。

1.3.4 METEOR

METEOR方法结合词干对齐和句子级别的语义相似性来评估翻译质量。

2. Encoder-Decoder结构

Encoder-decoder结构是一种常用于序列到序列（sequence-to-sequence, Seq2Seq）学习任务的深度学习架构，特别是在自然语言处理领域中广泛应用。

它是一种常见的神经网络架构，是一类算法统称，并不是特指某一个具体的算法，在这个框架下可以使用不同的算法来解决不同的任务。编码（encode）由一个编码器将输入序列转化成一个固定维度的稠密向量，解码（decode）阶段将这个激活状态生成目标译文。

以机器翻译场景为例，期望将某种语言的句子X翻译成另一种语言的句子Y，句子被表征为每个位置的字符id输入，则给定X=(x1,x2,x3,x4…)输入给模型，期望模型预测出Y=(y1,y2,y3,y4…)，模型架构如下：

在以上示例中，编码器会对完整的输入句子通过各种复杂非线性变换生成中间状态State，即语义向量，代表原始输入被编码器编码之后形成的中间语义状态，输出中间语义向量。

解码器层需要融合解码器产出的中间状态State，和解码器已经生成出的信息Y1,Y2…Yi-1，来生成i时刻需要生成的单词Yi，同时融合解码器语义和历史解码信息，解码器是从第一个单词开始，逐位预测下一个单词，最终实现了从X翻译到Y的任务。

在实际网络中会在解码器中增加注意力机制，否则对于任何位置Yi的预测中间状态state都是一样的，显然源文本中每个位置的字符应该和目标翻译文本各位置字符存在一定的对照关系，因此源文本的编码器State向量应该在每个位置对于当下要预测的Yi有不一样的权重分配。

3. 注意力机制

3.1 简单引入

注意力机制（Attention Mechanism）是深度学习领域中的一种重要技术，在序列模型如自然语言处理中，它使模型能够聚焦于输入数据的重要部分，从而提高整体性能和效率。在机器翻译、文本摘要、情感分析等任务中，注意力机制可以帮助模型关注文本的关键部分。

基于第二节对Encoder-Decoder结构的基本分析，可以对注意力机制进行深入分析。

基本的Encoder-Decoder结构并没有体现出注意力机制的应用，但是将Decoder的生成拆开来看，融合语义向量和历史解码信息的非线性变换函数，在生成目标单词时，使用的语义向量都是一样的，所以，原句子任意单词对某个单词Yi来说，影响力都是相同的。如果输入句子比较短，对于输出影响不是很大，但如果输入句子很长，这时所有的语义都通过一个语义向量State来表示，单词自身的信息会消失，很多细节信息会被丢失，最终的输出也会受到影响，所以要引入注意力机制。

3.2 Q and K and V矩阵

Query：指查询的范围，自主提示，即主观意识的特征向量
Key：指被比对的项，非自主提示，即物体的突出特征信息向量
Value ：代表物体本身的特征向量，通常和Key成对出现

注意力机制是通过Query与Key的注意力汇聚（给定一个 Query，计算Query与 Key的相关性，然后根据Query与Key的相关性去找到最合适的 Value）实现对Value的注意力权重分配，生成最终的输出结果。虽然三者的每个属性在不同的空间，但是他们有一定的潜在关系，通过某种变换，可以使得三者的属性在一个相近的空间中。

具体计算：

根据Query和Key计算两者之间的相关性或相似性，得到注意力得分。计算余弦相似度公式如下：

$\mathrm{Similarity}(\mathrm{Query},Key_{i})=\frac{\mathrm{Query}\cdot Key_{i}}{||Query||\cdot||Key_{i}||}$

对注意力得分进行缩放（即除以维度的根号），再使用softmax函数进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布，也可以突出重要元素的权重，公式如下所示：

$Softmax(Sim_{i})=\frac{e^{Sim_{i}}}{\sum_{j=1}^{L_{\chi}}e^{Sim_{j}}}$

根据权重系数对Value值进行加权求和，得到Attention Value：

$\mathbf{Attention}(\mathbf{Query},\mathbf{Source})=\sum_{i=1}^{L_{x}}a_{i}\cdot Value_{i}$

4. 应用“编码器—解码器”和“注意力机制”的机器翻译

在第二部分，我将基于以上理论知识，借助代码展示如何将“编码器—解码器”和“注意力机制”应用于机器翻译，其中包括数据预处理、模型构建与训练、评价等。

4.1 读取和预处理数据

我们先定义一些特殊符号。其中“<pad>”（padding）符号用来添加在较短序列后，直到每个序列等长，而“<bos>”和“<eos>”符号分别表示序列的开始和结束。

!tar -xf d2lzh_pytorch.tar

import collections  # 导入 Python 标准库中的 collections 模块，提供额外的数据结构
import os  # 导入 Python 标准库中的 os 模块，用于与操作系统进行交互
import io  # 导入 Python 标准库中的 io 模块，提供对流式数据的核心工具
import math  # 导入 Python 标准库中的 math 模块，提供数学运算功能
import torch  # 导入 PyTorch 深度学习库
from torch import nn  # 从 PyTorch 中导入神经网络模块 nn
import torch.nn.functional as F  # 导入 PyTorch 中的函数模块 functional
import torchtext.vocab as Vocab  # 导入 PyTorch 文本处理库中的 vocab 模块
import torch.utils.data as Data  # 导入 PyTorch 中的数据处理工具模块 utils.data


import sys
# sys.path.append("..") 
import d2lzh_pytorch as d2l

# 定义常量（填充、开始和结束的特殊标记）
PAD, BOS, EOS = '<pad>', '<bos>', '<eos>'  # 定义填充、序列开始和序列结束的特殊标记，使用 HTML 转义字符表示尖括号 < >
os.environ["CUDA_VISIBLE_DEVICES"] = "0"  # 设置环境变量 CUDA_VISIBLE_DEVICES，指定使用 GPU 编号为 0
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # 根据 CUDA 是否可用选择设备，优先选择 GPU，否则选择 CPU

print(torch.__version__, device)

接着定义两个辅助函数对后面读取的数据进行预处理。

# 将一个序列中所有的词记录在all_tokens中以便之后构造词典，然后在该序列后面添加PAD直到序列
# 长度变为max_seq_len，然后将序列保存在all_seqs中
def process_one_seq(seq_tokens, all_tokens, all_seqs, max_seq_len):
    all_tokens.extend(seq_tokens)
    seq_tokens += [EOS] + [PAD] * (max_seq_len - len(seq_tokens) - 1)
    all_seqs.append(seq_tokens)

# 使用所有的词来构造词典。并将所有序列中的词变换为词索引后构造Tensor
def build_data(all_tokens, all_seqs):
    vocab = Vocab.Vocab(collections.Counter(all_tokens),
                        specials=[PAD, BOS, EOS])
    indices = [[vocab.stoi[w] for w in seq] for seq in all_seqs]
    return vocab, torch.tensor(indices)

为了演示方便，我们在这里使用一个很小的法语—英语数据集。在这个数据集里，每一行是一对法语句子和它对应的英语句子，中间使用'\t'隔开。在读取数据时，我们在句末附上“<eos>”符号，并可能通过添加“<pad>”符号使每个序列的长度均为max_seq_len。我们为法语词和英语词分别创建词典。法语词的索引和英语词的索引相互独立。

def read_data(max_seq_len):
    # in和out分别是input和output的缩写
    in_tokens, out_tokens, in_seqs, out_seqs = [], [], [], []
    with io.open('fr-en-small.txt') as f:
        lines = f.readlines()
    for line in lines:
        in_seq, out_seq = line.rstrip().split('\t')
        in_seq_tokens, out_seq_tokens = in_seq.split(' '), out_seq.split(' ')
        if max(len(in_seq_tokens), len(out_seq_tokens)) > max_seq_len - 1:
            continue  # 如果加上EOS后长于max_seq_len，则忽略掉此样本
        process_one_seq(in_seq_tokens, in_tokens, in_seqs, max_seq_len)
        process_one_seq(out_seq_tokens, out_tokens, out_seqs, max_seq_len)
    in_vocab, in_data = build_data(in_tokens, in_seqs)
    out_vocab, out_data = build_data(out_tokens, out_seqs)
    return in_vocab, out_vocab, Data.TensorDataset(in_data, out_data)

将序列的最大长度设成7，然后查看读取到的第一个样本。该样本分别包含法语词索引序列和英语词索引序列。

max_seq_len = 7
in_vocab, out_vocab, dataset = read_data(max_seq_len)
dataset[0]

4.2 含注意力机制的编码器—解码器

我们将使用含注意力机制的编码器—解码器来将一段简短的法语翻译成英语。下面我们来介绍模型的实现。

4.2.1 编码器

在编码器中，我们将输入语言的词索引通过词嵌入层得到词的表征，然后输入到一个多层门控循环单元中。由于PyTorch的nn.GRU实例在前向计算后也会分别返回输出和最终时间步的多层隐藏状态。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态，并不涉及输出层计算。

class Encoder(nn.Module):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 drop_prob=0, **kwargs):
        super(Encoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(embed_size, num_hiddens, num_layers, dropout=drop_prob)

    def forward(self, inputs, state):
        # 输入形状是(批量大小, 时间步数)。将输出互换样本维和时间步维
        embedding = self.embedding(inputs.long()).permute(1, 0, 2) # (seq_len, batch, input_size)
        return self.rnn(embedding, state)

    def begin_state(self):
        return None

下面我们来创建一个批量大小为4、时间步数为7的小批量序列输入。设门控循环单元的隐藏层个数为2，隐藏单元个数为16。编码器对该输入执行前向计算后返回的输出形状为(时间步数, 批量大小, 隐藏单元个数)。门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。对于门控循环单元来说，state就是一个元素，即隐藏状态；如果使用长短期记忆，state是一个元组，包含两个元素即隐藏状态和记忆细胞。

# 创建 Encoder 对象，指定词汇表大小为 10，嵌入大小为 8，隐藏单元数为 16，层数为 2
encoder = Encoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)

# 对 Encoder 进行前向计算，输入是一个形状为 (4, 7) 的张量，初始状态通过 begin_state() 获得
output, state = encoder(torch.zeros((4, 7)), encoder.begin_state())
output.shape, state.shape # GRU的state是h, 而LSTM的是一个元组(h, c)

4.2.2 注意力机制

我们将首先创建注意力模型的函数：将输入连结后通过含单隐藏层的多层感知机变换。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结，且使用tanh函数作为激活函数。输出层的输出个数为1。两个Linear实例均不使用偏差。

def attention_model(input_size, attention_size):
    """
    创建注意力模型的函数。

    参数：
    - input_size: 输入特征的大小
    - attention_size: 注意力机制中间层的大小

    返回：
    - model: 注意力模型，包含两个线性层和一个 Tanh 激活函数

    注意力模型结构：
    - 第一个线性层：将输入特征映射到注意力中间层大小，没有偏置
    - Tanh 激活函数：增加非线性
    - 第二个线性层：将注意力中间层映射到一个注意力权重，没有偏置

    """
    model = nn.Sequential(nn.Linear(input_size, attention_size, bias=False), #第一个线性层
                          nn.Tanh(),
                          nn.Linear(attention_size, 1, bias=False))  # 第二个线性层，输出注意力权重
    return model

注意力机制的输入包括查询项、键项和值项。设编码器和解码器的隐藏单元个数相同。这里的查询项为解码器在上一时间步的隐藏状态，形状为(批量大小, 隐藏单元个数)；键项和值项均为编码器在所有时间步的隐藏状态，形状为(时间步数, 批量大小, 隐藏单元个数)。注意力机制返回当前时间步的背景变量，形状为(批量大小, 隐藏单元个数)。

def attention_forward(model, enc_states, dec_state):
    """
    enc_states: (时间步数, 批量大小, 隐藏单元个数)
    dec_state: (批量大小, 隐藏单元个数)
    """
    # 将解码器隐藏状态广播到和编码器隐藏状态形状相同后进行连结
    dec_states = dec_state.unsqueeze(dim=0).expand_as(enc_states)
    enc_and_dec_states = torch.cat((enc_states, dec_states), dim=2)
    e = model(enc_and_dec_states)  # 形状为(时间步数, 批量大小, 1)
    alpha = F.softmax(e, dim=0)  # 在时间步维度做softmax运算
    return (alpha * enc_states).sum(dim=0)  # 返回背景变量

在下面的例子中，编码器的时间步数为10，批量大小为4，编码器和解码器的隐藏单元个数均为8。注意力机制返回一个小批量的背景向量，每个背景向量的长度等于编码器的隐藏单元个数。因此输出的形状为(4, 8)。

seq_len, batch_size, num_hiddens = 10, 4, 8  # 序列长度、批量大小、隐藏单元数
model = attention_model(2*num_hiddens, 10)  # 创建注意力模型，输入特征大小为 2*num_hiddens，注意力大小为 10
enc_states = torch.zeros((seq_len, batch_size, num_hiddens))  # 编码器状态，形状为 (seq_len, batch_size, num_hiddens)
dec_state = torch.zeros((batch_size, num_hiddens))  # 解码器初始状态，形状为 (batch_size, num_hiddens)
attention_forward(model, enc_states, dec_state).shape  # 使用注意力模型进行前向传播，输出形状的注释

4.2.3 含注意力机制的解码器

我们直接将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。这要求编码器和解码器的循环神经网络使用相同的隐藏层个数和隐藏单元个数。

在解码器的前向计算中，我们先通过刚刚介绍的注意力机制计算得到当前时间步的背景向量。由于解码器的输入来自输出语言的词索引，我们将输入通过词嵌入层得到表征，然后和背景向量在特征维连结。我们将连结后的结果与上一时间步的隐藏状态通过门控循环单元计算出当前时间步的输出与隐藏状态。最后，我们将输出通过全连接层变换为有关各个输出词的预测，形状为(批量大小, 输出词典大小)。

class Decoder(nn.Module):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 attention_size, drop_prob=0):
        super(Decoder, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.attention = attention_model(2*num_hiddens, attention_size)
        # GRU的输入包含attention输出的c和实际输入, 所以尺寸是 num_hiddens+embed_size
        self.rnn = nn.GRU(num_hiddens + embed_size, num_hiddens, 
                          num_layers, dropout=drop_prob)
        self.out = nn.Linear(num_hiddens, vocab_size)

    def forward(self, cur_input, state, enc_states):
        """
        cur_input shape: (batch, )
        state shape: (num_layers, batch, num_hiddens)
        """
        # 使用注意力机制计算背景向量
        c = attention_forward(self.attention, enc_states, state[-1])
        # 将嵌入后的输入和背景向量在特征维连结, (批量大小, num_hiddens+embed_size)
        input_and_c = torch.cat((self.embedding(cur_input), c), dim=1) 
        # 为输入和背景向量的连结增加时间步维，时间步个数为1
        output, state = self.rnn(input_and_c.unsqueeze(0), state)
        # 移除时间步维，输出形状为(批量大小, 输出词典大小)
        output = self.out(output).squeeze(dim=0)
        return output, state

    def begin_state(self, enc_state):
        # 直接将编码器最终时间步的隐藏状态作为解码器的初始隐藏状态
        return enc_state

4.3 训练模型

我们先实现batch_loss函数计算一个小批量的损失。解码器在最初时间步的输入是特殊字符BOS。之后，解码器在某时间步的输入为样本输出序列在上一时间步的词，即强制教学。在这里，我们使用掩码变量避免填充项对损失函数计算的影响。

def batch_loss(encoder, decoder, X, Y, loss):
    batch_size = X.shape[0]
    enc_state = encoder.begin_state()
    enc_outputs, enc_state = encoder(X, enc_state)
    # 初始化解码器的隐藏状态
    dec_state = decoder.begin_state(enc_state)
    # 解码器在最初时间步的输入是BOS
    dec_input = torch.tensor([out_vocab.stoi[BOS]] * batch_size)
    # 我们将使用掩码变量mask来忽略掉标签为填充项PAD的损失, 初始全1
    mask, num_not_pad_tokens = torch.ones(batch_size,), 0
    l = torch.tensor([0.0])
    for y in Y.permute(1,0): # Y shape: (batch, seq_len)
        dec_output, dec_state = decoder(dec_input, dec_state, enc_outputs)
        l = l + (mask * loss(dec_output, y)).sum()
        dec_input = y  # 使用强制教学
        num_not_pad_tokens += mask.sum().item()
        # EOS后面全是PAD. 下面一行保证一旦遇到EOS接下来的循环中mask就一直是0
        mask = mask * (y != out_vocab.stoi[EOS]).float()
    return l / num_not_pad_tokens

在训练函数中，我们需要同时迭代编码器和解码器的模型参数。

def train(encoder, decoder, dataset, lr, batch_size, num_epochs):
    """
    训练函数，用于训练编码器-解码器模型。

    参数：
    - encoder: 编码器模型
    - decoder: 解码器模型
    - dataset: 训练数据集
    - lr: 学习率
    - batch_size: 批量大小
    - num_epochs: 训练轮数

    返回：
    无返回值，直接对 encoder 和 decoder 进行训练。

    每个epoch过程：
    - 使用 Adam 优化器对编码器和解码器的参数进行优化
    - 使用交叉熵损失函数计算批量损失
    - 执行反向传播和优化步骤
    - 计算并打印每个epoch的平均损失

    """
    enc_optimizer = torch.optim.Adam(encoder.parameters(), lr=lr)  # 编码器优化器
    dec_optimizer = torch.optim.Adam(decoder.parameters(), lr=lr)  # 解码器优化器

    loss = nn.CrossEntropyLoss(reduction='none')   # 交叉熵损失函数
    data_iter = Data.DataLoader(dataset, batch_size, shuffle=True)
    for epoch in range(num_epochs):
        l_sum = 0.0
        for X, Y in data_iter:
            enc_optimizer.zero_grad()
            dec_optimizer.zero_grad()
            l = batch_loss(encoder, decoder, X, Y, loss)   # 计算当前批量的损失
            l.backward()
            enc_optimizer.step()
            dec_optimizer.step()
            l_sum += l.item()
        #每 10 个 epoch 打印平均损失
        if (epoch + 1) % 10 == 0:
            print("epoch %d, loss %.3f" % (epoch + 1, l_sum / len(data_iter)))

接下来，创建模型实例并设置超参数。然后，我们就可以训练模型了。

embed_size, num_hiddens, num_layers = 64, 64, 2  # 嵌入大小、隐藏单元数、层数
attention_size, drop_prob, lr, batch_size, num_epochs = 10, 0.5, 0.01, 2, 50  # 注意力大小、dropout概率、学习率、批量大小、训练轮数

# 创建编码器和解码器模型
encoder = Encoder(len(in_vocab), embed_size, num_hiddens, num_layers, drop_prob)
decoder = Decoder(len(out_vocab), embed_size, num_hiddens, num_layers, attention_size, drop_prob)

# 训练模型
train(encoder, decoder, dataset, lr, batch_size, num_epochs)

4.4 预测不定长的序列

以下是最简单的贪心算法搜索来生成解码器在每个时间步的输出

def translate(encoder, decoder, input_seq, max_seq_len):
    """
    翻译函数，使用训练好的编码器-解码器模型进行序列翻译。
    参数：
    - encoder: 训练好的编码器模型
    - decoder: 训练好的解码器模型
    - input_seq: 输入序列（字符串形式）
    - max_seq_len: 最大输出序列长度

    返回：
    - output_tokens: 翻译后的输出序列（词汇列表）
    """
    in_tokens = input_seq.split(' ')  # 将输入序列分词
    in_tokens += [EOS] + [PAD] * (max_seq_len - len(in_tokens) - 1)  # 补充 EOS 和 PAD
    enc_input = torch.tensor([[in_vocab.stoi[tk] for tk in in_tokens]])  # 将分词后的序列转换为张量输入给编码器，batch=1
    enc_state = encoder.begin_state()  # 获取编码器的初始状态
    enc_output, enc_state = encoder(enc_input, enc_state)  # 编码器得到输出和最终状态

    dec_input = torch.tensor([out_vocab.stoi[BOS]])  # 解码器初始输入为 BOS
    dec_state = decoder.begin_state(enc_state)  # 解码器初始状态使用编码器的最终状态
    output_tokens = []  # 输出序列的 token

    for _ in range(max_seq_len):
        dec_output, dec_state = decoder(dec_input, dec_state, enc_output)  # 解码器得到输出和新状态
        pred = dec_output.argmax(dim=1)  # 获取预测结果中概率最大的 token
        pred_token = out_vocab.itos[int(pred.item())]  # 将预测结果转换为 token
        if pred_token == EOS:  # 如果预测出 EOS，表示输出序列完成
            break
        else:
            output_tokens.append(pred_token)  # 将预测的 token 添加到输出序列
            dec_input = pred  # 将当前预测的 token 作为下一个时间步的输入

    return output_tokens

简单测试一下模型。输入法语句子“ils regardent.”，翻译后的英语句子应该是“they are watching.”。

input_seq = 'ils regardent .'
translate(encoder, decoder, input_seq, max_seq_len)

结果：['they', 'are', 'watching', '.']

输出结果与预测一致！

4.5 评价翻译结果

评价机器翻译结果通常使用BLEU。对于模型预测序列中任意的子序列，BLEU考察这个子序列是否出现在标签序列中，具体示例可以参考1.3.1节。

下面定义函数实现BLEU的计算。

def bleu(pred_tokens, label_tokens, k):
    """
    计算 BLEU 分数的函数。

    参数：
    - pred_tokens: 预测的 token 列表
    - label_tokens: 标签的 token 列表
    - k: 最大 n-gram 的 n 值

    返回：
    - score: BLEU 分数

    计算过程：
    - 计算预测序列和标签序列的长度比例的指数分数
    - 对每个 n-gram 进行匹配计数，并根据匹配数计算分数
    """
    len_pred, len_label = len(pred_tokens), len(label_tokens)
    score = math.exp(min(0, 1 - len_label / len_pred))  # 根据预测序列和标签序列的长度比例计算指数分数

    for n in range(1, k + 1):
        num_matches, label_subs = 0, collections.defaultdict(int)

        # 统计标签序列中所有 n-gram 的出现次数
        for i in range(len_label - n + 1):
            label_subs[''.join(label_tokens[i: i + n])] += 1

        # 计算预测序列中匹配的 n-gram 数量
        for i in range(len_pred - n + 1):
            if label_subs[''.join(pred_tokens[i: i + n])] > 0:
                num_matches += 1
                label_subs[''.join(pred_tokens[i: i + n])] -= 1

        # 计算 n-gram 的精确率和召回率
        precision_recall = num_matches / (len_pred - n + 1)
        
        # 根据精确率和召回率计算 n-gram 的加权分数
        score *= math.pow(precision_recall, math.pow(0.5, n))

    return score

接下来，定义一个辅助打印函数。

def score(input_seq, label_seq, k):
    """
    计算并打印输入序列的 BLEU 分数及其预测。

    参数：
    - input_seq: 输入序列（字符串形式）
    - label_seq: 标签序列（字符串形式）
    - k: 最大 n-gram 的 n 值
    """
    pred_tokens = translate(encoder, decoder, input_seq, max_seq_len)#使用 translate 函数预测输出序列
    label_tokens = label_seq.split(' ')  # 将标签序列分词
    print('bleu %.3f, predict: %s' % (bleu(pred_tokens, label_tokens, k),
                                      ' '.join(pred_tokens)))  # 打印 BLEU 分数及其预测结果

预测正确则分数为1。

score('ils regardent .', 'they are watching .', k=2)

结果：bleu 1.000, predict: they are watching .

score('ils sont canadienne .', 'they are canadian .', k=2)

结果：bleu 0.658, predict: they are actors .

5. 示例：使用Transformer和PyTorch的日—中机器翻译模型

在上一小节，我介绍了如何将Encoder-Decoder结构和自注意力机制应用到机器翻译模型中，含有对数据集的预处理、模型定义与训练、评估结果等。接下来，我将通过一个具体的例子来继续介绍机器翻译模型。

5.1 导入库

import math  # 导入数学库
import torchtext  # 导入torchtext库
import torch  # 导入PyTorch库
import torch.nn as nn  # 导入PyTorch的神经网络模块
from torch import Tensor  # 导入张量数据类型
from torch.nn.utils.rnn import pad_sequence  # 导入序列填充函数
from torch.utils.data import DataLoader  # 导入数据加载器
from collections import Counter  # 导入计数器类
from torchtext.vocab import Vocab  # 导入词汇表类
from torch.nn import TransformerEncoder, TransformerDecoder, TransformerEncoderLayer, TransformerDecoderLayer  # 导入Transformer模型相关类
import io  # 导入io库
import time  # 导入时间库
import pandas as pd  # 导入pandas库
import numpy as np  # 导入numpy库
import pickle  # 导入pickle库
import tqdm  # 导入进度条库
import sentencepiece as spm  # 导入SentencePiece库
torch.manual_seed(0)  # 设置随机种子以保证实验的可重复性
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # 检测CUDA是否可用，选择运行设备为GPU或CPU
#print(torch.cuda.get_device_name(0)) ## 如果你有GPU，请在你自己的电脑上尝试运行这一套代码

由于我的电脑没有配置GPU，以下仅展示代码和部分运行结果。

5.2 获取数据集

在本教程中，我们将使用从在本教程中，我们将使用从http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl 下载的日语-英语并行数据集，该数据集被描述为“NTT创建的最大的公开可用的英语-日语并行语料库”。它主要是通过抓取网络并自动对齐平行句子创建的。载的日语-英语并行数据集，该数据集被描述为“NTT创建的最大的公开可用的英语-日语并行语料库”。它主要是通过抓取网络并自动对齐平行句子创建的。

df = pd.read_csv('zh-ja.bicleaner05.txt', sep='\\t', engine='python', header=None)
trainen = df[2].values.tolist()  # 将第三列数据转换为列表，即英文训练数据
trainja = df[3].values.tolist()  # 将第四列数据转换为列表，即日文训练数据
# 注释：上面两行代码用于从文件 'zh-ja.bicleaner05.txt' 中读取数据。将第三列和第四列的内容分别存储为英文训练数据（trainen）和日文训练数据（trainja）。
# 如果需要限制数据量，可以取消注释[:10000]部分，以仅使用前10000条数据。

# trainen.pop(5972)
# trainja.pop(5972)

在导入所有日语和英语对应项之后，我删除了数据集中的最后一个数据，因为它有一个缺失的值。总的来说，trainen和trainja中的句子数量都是5,973,071，然而，出于学习目的，通常建议在一次使用所有数据之前对数据进行采样并确保一切正常工作，以节省时间。

下面是一个包含在数据集中的句子示例。

print(trainen[500])
print(trainja[500])

结果展示：

我们也可以使用不同的并行数据集来跟随本文，只要确保我们可以将数据处理成如上所示的两个字符串列表，其中包含日语和英语句子。

5.2 准备标记器

与英语或其他按字母顺序排列的语言不同，日语句子不包含空格来分隔单词。我们可以使用JParaCrawl提供的标记器，它是使用sentencepece为日语和英语创建的。

# 加载英文句子分割器
en_tokenizer = spm.SentencePieceProcessor(model_file='spm.en.nopretok.model')  
# 加载日文句子分割器
ja_tokenizer = spm.SentencePieceProcessor(model_file='spm.ja.nopretok.model')

下载好后，可以通过以下测试用例来验证：

en_tokenizer.encode("All residents aged 20 to 59 years who live in Japan must enroll in public pension system.", out_type='str')

结果如下：

ja_tokenizer.encode("年金 日本に住んでいる20歳~60歳の全ての人は、公的年金制度に加入しなければなりません。", out_type='str')

结果如下：

5.3 建立TorchText词汇对象并将句子转换为Torch张量

使用标记器和原始句子，然后构建从TorchText导入的Vocab对象。根据数据集的大小和计算能力，这个过程可能需要几秒钟或几分钟，不同的标记器也会影响构建词汇所需的时间。

def build_vocab(sentences, tokenizer):
    counter = Counter()  # 创建一个计数器对象用于统计词频
    for sentence in sentences:
        counter.update(tokenizer.encode(sentence, out_type=str))  # 使用指定的tokenizer对每个句子进行编码（分词），并更新计数器
    return Vocab(counter, specials=['<unk>', '<pad>', '<bos>', '<eos>'])  # 基于计数器构建词汇表，包括特殊标记

ja_vocab = build_vocab(trainja, ja_tokenizer)  # 构建日文词汇表，使用trainja数据和日文tokenizer
en_vocab = build_vocab(trainen, en_tokenizer)  # 构建英文词汇表，使用trainen数据和英文tokenizer

在我们有了词汇表对象之后，我们可以使用词汇表和标记器对象来为我们的训练数据构建张量。

def data_process(ja, en):
    data = []  # 初始化一个空列表用于存储处理后的数据
    for (raw_ja, raw_en) in zip(ja, en):
        # 对于每一对（raw_ja, raw_en），分别进行处理
        ja_tensor_ = torch.tensor([ja_vocab[token] for token in ja_tokenizer.encode(raw_ja.rstrip("\n"), out_type=str)],
                            dtype=torch.long)
        # 使用日文tokenizer对raw_ja进行编码，并根据日文词汇表ja_vocab将每个token转换为对应的索引，创建torch.tensor对象
        en_tensor_ = torch.tensor([en_vocab[token] for token in en_tokenizer.encode(raw_en.rstrip("\n"), out_type=str)],
                            dtype=torch.long)
        # 使用英文tokenizer对raw_en进行编码，并根据英文词汇表en_vocab将每个token转换为对应的索引，创建torch.tensor对象
        data.append((ja_tensor_, en_tensor_))  # 将处理后的（日文tensor, 英文tensor）元组添加到data列表中
    return data  # 返回处理后的数据列表

train_data = data_process(trainja, trainen)  # 对训练数据trainja和trainen进行数据处理，存储结果到train_data中

5.4 创建要在训练期间迭代的DataLoader对象

可以将BATCH_SIZE设置为16，防止“cuda内存不足”，但这取决于各种事情，例如您的机器内存容量，数据大小等，因此可以根据您的需要随意更改批大小。

BATCH_SIZE = 8  # 定义批量大小为8

PAD_IDX = ja_vocab['<pad>']  # 获取日文词汇表中 '<pad>' 标记对应的索引
BOS_IDX = ja_vocab['<bos>']  # 获取日文词汇表中 '<bos>' 标记对应的索引
EOS_IDX = ja_vocab['<eos>']  # 获取日文词汇表中 '<eos>' 标记对应的索引

def generate_batch(data_batch):
    ja_batch, en_batch = [], []  # 初始化空列表用于存储日文和英文的批量数据
    for (ja_item, en_item) in data_batch:
        # 对于每个数据批次中的（ja_item, en_item），分别进行处理
        ja_batch.append(torch.cat([torch.tensor([BOS_IDX]), ja_item, torch.tensor([EOS_IDX])], dim=0))
        # 在日文数据的开头添加<BOS>（序列开始）标记，结尾添加<EOS>（序列结束）标记，并拼接成一个tensor序列
        en_batch.append(torch.cat([torch.tensor([BOS_IDX]), en_item, torch.tensor([EOS_IDX])], dim=0))
        # 在英文数据的开头添加<BOS>（序列开始）标记，结尾添加<EOS>（序列结束）标记，并拼接成一个tensor序列

    ja_batch = pad_sequence(ja_batch, padding_value=PAD_IDX)  # 对日文数据批量进行填充，使用PAD_IDX作为填充值
    en_batch = pad_sequence(en_batch, padding_value=PAD_IDX)  # 对英文数据批量进行填充，使用PAD_IDX作为填充值

    return ja_batch, en_batch  # 返回填充后的日文和英文批量数据

train_iter = DataLoader(train_data, batch_size=BATCH_SIZE,
                        shuffle=True, collate_fn=generate_batch)

5.5 Sequence-to-sequence Transformer

接下来的代码和文本解释(以斜体书写)来自原始的PyTorch教程——https://pytorch.org/tutorials/beginner/translation_transformer.html 。除了BATCH_SIZE和单词de_vocab被更改为ja_vocab之外，其他地方没有更改。

Transformer是在“Attention is all you need”论文中提出的用于解决机器翻译任务的Seq2Seq模型。Transformer模型由编码器和解码器块组成，每个块包含固定数量的层。

编码器通过一系列多头注意和前馈网络层对输入序列进行传播处理。编码器的输出称为存储器，与目标张量一起馈送到解码器。

BATCH_SIZE = 8  # 批量大小为8

PAD_IDX = ja_vocab['<pad>']  # 获取日语词汇表中 '<pad>' 标记的索引
BOS_IDX = ja_vocab['<bos>']  # 获取日语词汇表中 '<bos>' 标记的索引
EOS_IDX = ja_vocab['<eos>']  # 获取日语词汇表中 '<eos>' 标记的索引

def generate_batch(data_batch):
    ja_batch, en_batch = [], []  # 初始化空列表用于存储日语和英语的批量数据
    for (ja_item, en_item) in data_batch:
        # 对于每个数据批次中的（ja_item, en_item），分别进行处理
        ja_batch.append(torch.cat([torch.tensor([BOS_IDX]), ja_item, torch.tensor([EOS_IDX])], dim=0))
        # 在日语数据的开头添加<BOS>（序列开始）标记，结尾添加<EOS>（序列结束）标记，并拼接成一个tensor序列
        en_batch.append(torch.cat([torch.tensor([BOS_IDX]), en_item, torch.tensor([EOS_IDX])], dim=0))
        # 在英语数据的开头添加<BOS>（序列开始）标记，结尾添加<EOS>（序列结束）标记，并拼接成一个tensor序列

    ja_batch = pad_sequence(ja_batch, padding_value=PAD_IDX)  # 对日语数据批量进行填充，使用PAD_IDX作为填充值
    en_batch = pad_sequence(en_batch, padding_value=PAD_IDX)  # 对英语数据批量进行填充，使用PAD_IDX作为填充值

    return ja_batch, en_batch  # 返回填充后的日语和英语批量数据

train_iter = DataLoader(train_data, batch_size=BATCH_SIZE,
                        shuffle=True, collate_fn=generate_batch)

文本标记通过使用标记嵌入表示。位置编码被添加到标记嵌入中以引入词序的概念。

class PositionalEncoding(nn.Module):
    def __init__(self, emb_size: int, dropout, maxlen: int = 5000):
        super(PositionalEncoding, self).__init__()
        
        # 计算denominator，即公式中的分母部分
        den = torch.exp(- torch.arange(0, emb_size, 2) * math.log(10000) / emb_size)
        
        # 生成位置编码所需的位置索引，从0到maxlen-1，并且reshape成(maxlen, 1)的形状
        pos = torch.arange(0, maxlen).reshape(maxlen, 1)
        
        # 初始化位置编码矩阵，形状为(maxlen, emb_size)，并用0填充
        pos_embedding = torch.zeros((maxlen, emb_size))
        
        # 根据公式计算位置编码的sin部分和cos部分，并将其分别赋值给位置编码矩阵的奇数列和偶数列
        pos_embedding[:, 0::2] = torch.sin(pos * den)
        pos_embedding[:, 1::2] = torch.cos(pos * den)
        
        # 在倒数第二个维度上增加一个维度，形状变为(maxlen, emb_size, 1)，以便与token_embedding相加
        pos_embedding = pos_embedding.unsqueeze(-2)

        # 定义Dropout层，用于在前向传播时对token_embedding和位置编码进行随机置零
        self.dropout = nn.Dropout(dropout)
        
        # 将位置编码矩阵转换为不可训练的buffer，以便在模型中保持固定
        self.register_buffer('pos_embedding', pos_embedding)

    def forward(self, token_embedding: Tensor):
        # 返回经过Dropout处理后的token_embedding与位置编码相加的结果
        return self.dropout(token_embedding +
                            self.pos_embedding[:token_embedding.size(0), :])

class TokenEmbedding(nn.Module):
    def __init__(self, vocab_size: int, emb_size):
        super(TokenEmbedding, self).__init__()
        
        # 定义一个词嵌入层，将输入的词索引tokens转换为词嵌入向量，维度为(词汇量大小, emb_size)
        self.embedding = nn.Embedding(vocab_size, emb_size)
        
        # 保存词嵌入向量的维度大小
        self.emb_size = emb_size
    
    def forward(self, tokens: Tensor):
        # 将输入的tokens转换为长整型，并通过词嵌入层获取词嵌入向量，并乘以sqrt(emb_size)进行缩放
        return self.embedding(tokens.long()) * math.sqrt(self.emb_size)

我们创建一个后续单词掩码来阻止目标单词关注它的后续单词。我们还创masks，用于屏蔽源和目标填充令牌。

def generate_square_subsequent_mask(sz):
    # 生成一个大小为(sz, sz)的上三角矩阵，并转置为(sz, sz)的形状
    mask = (torch.triu(torch.ones((sz, sz), device=device)) == 1).transpose(0, 1)
    mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
    return mask

def create_mask(src, tgt):
    # 获取源序列和目标序列的长度
    src_seq_len = src.shape[0]
    tgt_seq_len = tgt.shape[0]

    # 生成目标序列的mask，这里使用generate_square_subsequent_mask生成
    tgt_mask = generate_square_subsequent_mask(tgt_seq_len)
    
    # 创建一个全零的(src_seq_len, src_seq_len)大小的bool型张量，作为源序列的mask
    src_mask = torch.zeros((src_seq_len, src_seq_len), device=device).type(torch.bool)

    # 生成源序列和目标序列的填充mask
    # src_padding_mask: 将src中等于PAD_IDX的位置转置为(src_seq_len, batch_size)的形状
    src_padding_mask = (src == PAD_IDX).transpose(0, 1)
    
    # tgt_padding_mask: 将tgt中等于PAD_IDX的位置转置为(tgt_seq_len, batch_size)的形状
    tgt_padding_mask = (tgt == PAD_IDX).transpose(0, 1)
    
    # 返回源mask、目标mask以及源填充mask和目标填充mask
    return src_mask, tgt_mask, src_padding_mask, tgt_padding_mask

如果使用GPU，NUM_ENCODER_LAYERS 和 NUM_DECODER_LAYERS 设置为3或者更高，NHEAD设置8，EMB_SIZE设置为512。

SRC_VOCAB_SIZE = len(ja_vocab)  # 源语言词汇表大小
TGT_VOCAB_SIZE = len(en_vocab)  # 目标语言词汇表大小
EMB_SIZE = 512  # 词嵌入维度大小
NHEAD = 8  # 注意力头数
FFN_HID_DIM = 512  # FeedForward层隐藏单元数
BATCH_SIZE = 16  # 批量大小
NUM_ENCODER_LAYERS = 3  # 编码器层数
NUM_DECODER_LAYERS = 3  # 解码器层数
NUM_EPOCHS = 16  # 训练轮数

# 创建一个Seq2SeqTransformer模型实例
transformer = Seq2SeqTransformer(NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS,
                                 EMB_SIZE, SRC_VOCAB_SIZE, TGT_VOCAB_SIZE,
                                 FFN_HID_DIM)

# 对模型参数进行初始化（Xavier初始化）
for p in transformer.parameters():
    if p.dim() > 1:
        nn.init.xavier_uniform_(p)

transformer = transformer.to(device)  # 将模型移动到指定的设备（如GPU）

# 定义损失函数为交叉熵损失，忽略填充标记的损失计算
loss_fn = torch.nn.CrossEntropyLoss(ignore_index=PAD_IDX)

# 使用Adam优化器进行模型参数的优化
optimizer = torch.optim.Adam(
    transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9
)

# 定义训练函数，每个epoch训练一次模型
def train_epoch(model, train_iter, optimizer):
    model.train()
    losses = 0
    for idx, (src, tgt) in enumerate(train_iter):
        src = src.to(device)
        tgt = tgt.to(device)

        tgt_input = tgt[:-1, :]  # 去掉目标序列的最后一个标记作为输入

        # 创建输入序列和目标序列的掩码
        src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_mask(src, tgt_input)

        # 前向传播得到预测结果logits
        logits = model(src, tgt_input, src_mask, tgt_mask,
                       src_padding_mask, tgt_padding_mask, src_padding_mask)

        optimizer.zero_grad()  # 梯度清零

        tgt_out = tgt[1:, :]  # 去掉目标序列的第一个标记作为输出
        # 计算损失
        loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1))
        loss.backward()  # 反向传播计算梯度

        optimizer.step()  # 更新模型参数
        losses += loss.item()  # 累加损失值
    return losses / len(train_iter)  # 返回平均损失

# 定义评估函数，评估模型在验证集上的表现
def evaluate(model, val_iter):
    model.eval()
    losses = 0
    for idx, (src, tgt) in enumerate(val_iter):
        src = src.to(device)
        tgt = tgt.to(device)

        tgt_input = tgt[:-1, :]  # 去掉目标序列的最后一个标记作为输入

        # 创建输入序列和目标序列的掩码
        src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_mask(src, tgt_input)

        # 前向传播得到预测结果logits
        logits = model(src, tgt_input, src_mask, tgt_mask,
                       src_padding_mask, tgt_padding_mask, src_padding_mask)
        tgt_out = tgt[1:, :]  # 去掉目标序列的第一个标记作为输出
        # 计算损失
        loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1))
        losses += loss.item()  # 累加损失值
    return losses / len(val_iter)  # 返回平均损失

5.6 开始训练

在准备好必要的类和函数之后，可以开始训练模型。这是不言而喻的，但是完成训练所需的时间可能会有很大的不同，这取决于很多事情，比如计算能力、参数和数据集的大小。

当使用JParaCrawl(每种语言大约有590万个句子)的完整句子列表来训练模型时，使用单个NVIDIA GeForce RTX 3070 GPU，每个epoch大约需要5个小时。

for epoch in tqdm.tqdm(range(1, NUM_EPOCHS+1)):
    start_time = time.time()
    train_loss = train_epoch(transformer, train_iter, optimizer)
    end_time = time.time()
    print((f"Epoch: {epoch}, Train loss: {train_loss:.3f}, "
           f"Epoch time = {(end_time - start_time):.3f}s"))

5.7 使用模型

我们可以使用上面已经训练好的模型翻译一个日语句子。首先，我们创建翻译新句子的函数，包括获取日语句子、标记化、转换为张量、推理，然后将结果解码回句子。

def greedy_decode(model, src, src_mask, max_len, start_symbol):
    """
    使用贪心算法生成目标序列。

    Args:
    - model (nn.Module): Transformer模型用于解码。
    - src (torch.Tensor): 形状为 (seq_len, 1) 的源序列索引张量。
    - src_mask (torch.Tensor): 源序列的布尔掩码。
    - max_len (int): 生成序列的最大长度。
    - start_symbol (int): 目标词汇表中的起始符号索引。

    Returns:
    - ys (torch.Tensor): 形状为 (seq_len, 1) 的生成目标序列索引张量。
    """
    src = src.to(device)
    src_mask = src_mask.to(device)
    memory = model.encode(src, src_mask)
    ys = torch.ones(1, 1).fill_(start_symbol).type(torch.long).to(device)
    for i in range(max_len-1):
        memory = memory.to(device)
        memory_mask = torch.zeros(ys.shape[0], memory.shape[0]).to(device).type(torch.bool)
        tgt_mask = (generate_square_subsequent_mask(ys.size(0))
                                    .type(torch.bool)).to(device)
        out = model.decode(ys, memory, tgt_mask)
        out = out.transpose(0, 1)
        prob = model.generator(out[:, -1])
        _, next_word = torch.max(prob, dim = 1)
        next_word = next_word.item()
        ys = torch.cat([ys,
                        torch.ones(1, 1).type_as(src.data).fill_(next_word)], dim=0)
        if next_word == EOS_IDX:
        break
    return ys

def translate(model, src, src_vocab, tgt_vocab, src_tokenizer):
    """
    使用Transformer模型进行翻译任务。

    Args:
    - model (nn.Module): Transformer模型用于翻译。
    - src (str): 源语言句子（字符串格式）。
    - src_vocab (Vocab): 源语言词汇表对象。
    - tgt_vocab (Vocab): 目标语言词汇表对象。
    - src_tokenizer (Tokenizer): 源语言的分词器。

    Returns:
    - translation (str): 翻译后的目标语言句子（字符串格式）。
    """
    model.eval()
    tokens = [BOS_IDX] + [src_vocab.stoi[tok] for tok in src_tokenizer.encode(src, out_type=str)]+ [EOS_IDX]
    num_tokens = len(tokens)
    src = (torch.LongTensor(tokens).reshape(num_tokens, 1) )
    src_mask = (torch.zeros(num_tokens, num_tokens)).type(torch.bool)
    tgt_tokens = greedy_decode(model,  src, src_mask, max_len=num_tokens + 5, start_symbol=BOS_IDX).flatten()
    return " ".join([tgt_vocab.itos[tok] for tok in tgt_tokens]).replace("<bos>", "").replace("<eos>", "")

直接调用翻译函数并传递所需的参数。

translate(transformer, "HSコード 8515 はんだ付け用、ろう付け用又は溶接用の機器(電気式(電気加熱ガス式を含む。)", ja_vocab, en_vocab, ja_tokenizer)

结果展示：

trainen.pop(5)

结果展示：

trainja.pop(5)

5.8 保存Vocab对象和训练好的模型

最后，在训练完成后，我们将首先使用Pickle保存Vocab对象(en_vocab和ja_vocab)。

import pickle
# 打开一个文件，用于存储数据
file = open('en_vocab.pkl', 'wb')
# 将en_vocab对象序列化并写入文件中
pickle.dump(en_vocab, file)
file.close()

# 打开一个文件，用于存储数据
file = open('ja_vocab.pkl', 'wb')
# 将ja_vocab对象序列化并写入文件中
pickle.dump(ja_vocab, file)
file.close()

最后，我们还可以使用PyTorch保存和加载函数保存模型以供以后使用。通常，有两种保存模型的方法，这取决于我们以后想要使用它们的目的。第一个仅用于推理，我们可以稍后加载模型并使用它从日语翻译成英语。

#保存模型
torch.save(transformer.state_dict(), 'inference_model')

#验证模型
torch.save({
  'epoch': NUM_EPOCHS,
  'model_state_dict': transformer.state_dict(),
  'optimizer_state_dict': optimizer.state_dict(),
  'loss': train_loss,
  }, 'model_checkpoint.tar')

6. 总结

在本次实验中，我们探索了使用编码器-解码器结构和注意力机制构建机器翻译系统的过程。编码器作为序列到序列模型的核心组件，负责将输入序列转换为上下文向量，该向量捕捉了输入句子的语义信息。我们使用了注意力机制来增强模型对输入的理解，使得解码器在生成目标语言序列时能够更加精准地对应输入序列的不同部分，从而提升翻译质量。

实验中，我们首先构建了一个基于PyTorch框架的编码器-解码器模型。编码器采用了LSTM网络，逐步处理输入序列，并将其转化为一个包含所有重要信息的上下文向量。解码器同样使用LSTM网络，它通过初始状态和编码器生成的上下文向量开始生成目标语言序列。在此过程中，注意力机制允许解码器根据当前生成的部分和编码器的不同部分之间的相关性来调整注意力权重，以便更好地决定翻译的焦点，这在长句子或者复杂语境下尤为重要。

我们通过实验验证了这一模型在标准翻译任务上的表现，并观察到注意力机制如何显著提升了翻译质量。具体而言，我们通过BLEU分数和人工评估来评估翻译结果的流畅性和准确性。结果显示，引入注意力机制后，翻译的流畅性和翻译文本与原文之间的相似性均有显著提高，这表明注意力机制在有效地处理长距离依赖和提升翻译一致性方面具有良好的效果。