【MindSpore学习打卡】初学教程-02快速入门-使用MindSpore构建和训练深度学习模型

使用交叉熵损失函数。

CNZedChou

1955人浏览 · 2024-06-19 20:38:37

CNZedChou · 2024-06-19 20:38:37 发布

《快速入门：使用MindSpore构建和训练深度学习模型》

在当今人工智能和深度学习的浪潮中，选择一个易用且高效的深度学习框架对于开发者来说至关重要。MindSpore作为华为推出的开源深度学习框架，具有简洁的API设计和强大的功能。本篇博客将带你快速入门MindSpore，通过一个简单的MNIST手写数字识别模型，详细讲解从数据处理、网络构建到模型训练和保存的全过程，让你轻松掌握使用MindSpore进行深度学习的基本技能。
详细学习请查看：昇思快速入门教程

1. 环境准备与数据集处理

安装依赖：需要安装download库来下载数据集。可以使用以下命令进行安装：
```
pip install download
```
如果在Notebook环境中运行代码，安装后需要重启kernel。

下载数据集：通过download函数从指定URL下载MNIST数据集，并解压到本地目录。

from download import download

url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)

数据集结构：MNIST数据集包含训练和测试两个子目录，每个子目录下有图像文件和标签文件。

MNIST_Data
└── train
    ├── train-images-idx3-ubyte (60000个训练图片)
    ├── train-labels-idx1-ubyte (60000个训练标签)
└── test
    ├── t10k-images-idx3-ubyte (10000个测试图片)
    ├── t10k-labels-idx1-ubyte (10000个测试标签)

加载数据集：使用MnistDataset类加载训练和测试数据集。

from mindspore.dataset import MnistDataset

train_dataset = MnistDataset('MNIST_Data/train')
test_dataset = MnistDataset('MNIST_Data/test')

数据预处理：定义数据处理Pipeline，包括图像的归一化、标准化和维度变换。将处理后的数据集打包为大小为64的batch。

from mindspore.dataset import vision, transforms

def datapipe(dataset, batch_size):
    image_transforms = [
        vision.Rescale(1.0 / 255.0, 0),
        vision.Normalize(mean=(0.1307,), std=(0.3081,)),
        vision.HWC2CHW()
    ]
    label_transform = transforms.TypeCast(mindspore.int32)

    dataset = dataset.map(image_transforms, 'image')
    dataset = dataset.map(label_transform, 'label')
    dataset = dataset.batch(batch_size)
    return dataset

train_dataset = datapipe(train_dataset, 64)
test_dataset = datapipe(test_dataset, 64)

数据集迭代访问：使用create_tuple_iterator或create_dict_iterator对数据集进行迭代访问，查看数据和标签的shape和datatype。

for image, label in test_dataset.create_tuple_iterator():
    print(f"Shape of image [N, C, H, W]: {image.shape} {image.dtype}")
    print(f"Shape of label: {label.shape} {label.dtype}")
    break

for data in test_dataset.create_dict_iterator():
    print(f"Shape of image [N, C, H, W]: {data['image'].shape} {data['image'].dtype}")
    print(f"Shape of label: {data['label'].shape} {data['label'].dtype}")
    break

2. 网络构建

定义网络结构：通过继承nn.Cell类定义网络结构。网络由一个Flatten层和三个全连接层（Dense层）组成，每个全连接层后接一个ReLU激活函数。

from mindspore import nn

class Network(nn.Cell):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()
        self.dense_relu_sequential = nn.SequentialCell(
            nn.Dense(28*28, 512),
            nn.ReLU(),
            nn.Dense(512, 512),
            nn.ReLU(),
            nn.Dense(512, 10)
        )

    def construct(self, x):
        x = self.flatten(x)
        logits = self.dense_relu_sequential(x)
        return logits

model = Network()
print(model)

3. 模型训练

定义损失函数和优化器：使用交叉熵损失函数nn.CrossEntropyLoss和随机梯度下降优化器nn.SGD。
```
loss_fn = nn.CrossEntropyLoss()
optimizer = nn.SGD(model.trainable_params(), 1e-2)
```

正向计算函数：定义正向计算函数forward_fn，计算模型的预测结果和损失。

def forward_fn(data, label):
    logits = model(data)
    loss = loss_fn(logits, label)
    return loss, logits

梯度计算函数：使用mindspore.value_and_grad函数生成计算梯度的函数grad_fn。

grad_fn = mindspore.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)

训练步骤函数：定义单步训练函数train_step，执行正向计算、反向传播和参数优化。

def train_step(data, label):
    (loss, _), grads = grad_fn(data, label)
    optimizer(grads)
    return loss

训练函数：定义完整的训练函数train，遍历数据集进行训练，并在每100个batch打印一次损失值。

def train(model, dataset):
    size = dataset.get_dataset_size()
    model.set_train()
    for batch, (data, label) in enumerate(dataset.create_tuple_iterator()):
        loss = train_step(data, label)

        if batch % 100 == 0:
            loss, current = loss.asnumpy(), batch
            print(f"loss: {loss:>7f}  [{current:>3d}/{size:>3d}]")

测试函数：定义测试函数test，评估模型的性能，计算平均损失和准确率。

def test(model, dataset, loss_fn):
    num_batches = dataset.get_dataset_size()
    model.set_train(False)
    total, test_loss, correct = 0, 0, 0
    for data, label in dataset.create_tuple_iterator():
        pred = model(data)
        total += len(data)
        test_loss += loss_fn(pred, label).asnumpy()
        correct += (pred.argmax(1) == label).asnumpy().sum()
    test_loss /= num_batches
    correct /= total
    print(f"Test: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

4. 训练与评估

训练与测试循环：设置训练轮数为3，每轮训练结束后进行测试，打印每轮的损失值和准确率。

epochs = 3
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train(model, train_dataset)
    test(model, test_dataset, loss_fn)
print("Done!")

5. 模型保存与加载

保存模型：使用mindspore.save_checkpoint函数将训练好的模型参数保存到文件中。
```
mindspore.save_checkpoint(model, "model.ckpt")
print("Saved Model to model.ckpt")
```

加载模型：重新实例化模型对象，加载保存的模型参数，并将其加载到模型中。

model = Network()
param_dict = mindspore.load_checkpoint("model.ckpt")
param_not_load, _ = mindspore.load_param_into_net(model, param_dict)
print(param_not_load)

模型推理：加载后的模型可以直接用于预测推理，打印预测结果和实际标签。

model.set_train(False)
for data, label in test_dataset:
    pred = model(data)
    predicted = pred.argmax(1)
    print(f'Predicted: "{predicted[:10]}", Actual: "{label[:10]}"')
    break

请添加图片描述

总的来说，这篇教程非常适合初学者快速掌握MindSpore的基本使用方法，并且通过实际操作加深对深度学习模型构建和训练过程的理解。通过本篇博客的学习，相信你已经掌握了如何使用MindSpore进行数据处理、网络构建、模型训练和保存的基本流程。MindSpore不仅提供了简洁易用的API，还具有强大的性能优化和自动微分机制，使得开发者能够更加专注于模型的设计和优化。如果你对深度学习有更高的追求，不妨深入探索MindSpore的更多高级功能和特性。希望本篇博客能为你的深度学习之路提供一些帮助和启发，期待你在AI领域取得更多的成果与突破。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

提示工程架构师实战手册：智能医疗远程诊断系统的提示词设计与性能调优

智能医疗远程诊断系统旨在通过AI技术打破地域限制，让偏远地区患者也能获得三甲医院级别的诊断支持。医疗数据的复杂性：病历文本、影像数据（CT/MRI）、波形数据（ECG/EEG）、实验室指标等多模态数据混杂，AI难以自动提取关键信息；临床推理的严谨性：医疗诊断需遵循"症状→鉴别诊断→证据验证→结论"的逻辑链，AI易因"跳跃式推理"导致误诊；伦理与安全风险：误诊可能危及生命，需确保AI结论可解释、可追

讯飞AI开发者社区

编程乐趣无限深度趣味项目解锁编程新境界

编程作为现代科技的重要组成部分，已经渗透到我们生活的方方面面。不论你是在开发手机应用、网站，还是参与人工智能的创新，编程的乐趣和挑战都在不断吸引着全球无数的开发者和程序员。对于初学者来说，编程可能看起来充满了复杂的代码和逻辑，但通过有趣且富有挑战性的项目，编程的世界也变得更加有趣！??在这篇文章中，我们将探讨一些有趣且富有创意的编程项目，不仅能帮助你提高编程技能，还能带你一步步进入编程的深度世界，

讯飞AI开发者社区

量子计算实战：2025算法开发指南

量子计算（QuantumComputing）正从实验室走向现实，预计到2025年，量子算法将在金融、医药、物流、人工智能等领域实现商业化应用。-量子计算机：使用量子比特（Qubit），可以同时处于0和1的叠加态（Superposition），并通过量子纠缠（Entanglement）实现并行计算。2025年，量子计算将从实验室走向产业应用，掌握量子算法开发将成为未来科技竞争的关键。🔹量子门（Qu