使用DLC进行MNIST手写体识别的单机与分布式训练-人工智能平台 PAI-阿里云

DLC可以快捷地创建分布式或单机训练任务。其底层基于Kubernetes，省去您手动购买机器并配置运行环境，无需改变使用习惯即可快速使用。本文以 MNIST 手写体识别为例，介绍如何使用DLC进行单机单卡训练，或多机多卡的分布式训练。

说明

MNIST手写体识别是深度学习最经典的入门任务之一，任务目标是通过构建机器学习模型，来识别10个手写数字（0～9）。

前提条件

使用主账号开通PAI并创建工作空间。登录PAI控制台，左上角选择开通区域，然后一键授权和开通产品。

计费说明

本文案例将使用公共资源创建DLC任务，计费方式为按量付费，详细计费规则请参见分布式训练（DLC）计费说明。

单机单卡训练

创建数据集

数据集用于存储模型训练的代码、数据、以及训练结果。本文以对象存储OSS类型数据集为例进行说明。

在PAI控制台左侧菜单栏单击数据集 > 自定义数据集 > 新建数据集。
配置数据集参数。关键参数配置如下，其他参数默认即可。
- 名称：如：dataset_mnist
- 存储类型：对象存储（OSS）
- OSS路径：单击图标，选择Bucket并新建目录如：dlc_mnist。
  如果您尚未开通OSS，或在当前地域下没有可选的Bucket，可参考如下步骤开通OSS，并新建Bucket：
  （可选）开通OSS，并新建Bucket
  1. 开通OSS服务。
  2. 登录OSS管理控制台，单击创建Bucket，填写Bucket名称，地域选择与当前PAI相同的地域，其他参数默认即可，然后单击完成创建。
单击确定创建数据集。

上传训练代码和数据。

下载代码。本文已经为您准备好了训练代码，单击mnist_train.py下载。为减少您的操作，代码运行时会自动将训练数据下载到数据集的dataSet目录中。

您在后续实际业务使用时，可以预先把代码和训练数据上传到PAI的数据集中。

单机单卡训练代码示例 mnist_train.py

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from torch.utils.tensorboard import SummaryWriter

# 超参数
batch_size = 64  # 每次训练的数据量
learning_rate = 0.01  # 学习率
num_epochs = 20  # 训练轮次

# 检查是否有可用的 GPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

train_dataset = datasets.MNIST(root='/mnt/data/dataSet', train=True, download=True, transform=transform)
val_dataset = datasets.MNIST(root='/mnt/data/dataSet', train=False, download=False, transform=transform)

train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)


# 定义简单的神经网络
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        # 第一层卷积：输入通道1（灰度图像），输出通道10，卷积核5x5
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        # 第二层卷积：输入通道10，输出通道20，卷积核3x3
        self.conv2 = nn.Conv2d(10, 20, kernel_size=3)
        # 全连接层：输入为20*5*5（卷积+池化后的特征图尺寸），输出128
        self.fc1 = nn.Linear(20 * 5 * 5, 128)
        # 输出层：128 -> 10（对应10个数字类别）
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        # 输入x形状: [batch, 1, 28, 28]
        x = F.max_pool2d(F.relu(self.conv1(x)), 2)  # [batch, 10, 12, 12]
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)  # [batch, 20, 5, 5]
        x = x.view(-1, 20 * 5 * 5)  # 展平为[batch, 500]
        x = F.relu(self.fc1(x))      # [batch, 128]
        x = self.fc2(x)              # [batch, 10]
        return x


# 实例化模型，并将其移动到 GPU 上（如果可用）
model = SimpleCNN().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)

# 创建 TensorBoard 的 SummaryWriter，可用于可视化的查看模型训练过程
writer = SummaryWriter('/mnt/data/output/runs/mnist_experiment')

# 用于保存最高准确率的模型的变量
best_val_accuracy = 0.0

# 训练模型并记录损失和准确率
for epoch in range(num_epochs):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)  # 将数据和目标移动到 GPU

        # 清零梯度
        optimizer.zero_grad()
        # 前向传播
        output = model(data)
        # 计算损失
        loss = criterion(output, target)
        # 反向传播
        loss.backward()
        # 更新参数
        optimizer.step()

        # 记录训练损失到 TensorBoard
        if batch_idx % 100 == 0:  # 每 100 个批次记录一次
            writer.add_scalar('Loss/train', loss.item(), epoch * len(train_loader) + batch_idx)
            print(f'Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} ({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}')

    # 验证模型并记录验证损失和准确率
    model.eval()
    val_loss = 0
    correct = 0
    with torch.no_grad():  # 不计算梯度
        for data, target in val_loader:
            data, target = data.to(device), target.to(device)  # 将数据和目标移动到 GPU
            output = model(data)
            val_loss += criterion(output, target).item()  # 累加验证损失
            pred = output.argmax(dim=1, keepdim=True)  # 获取预测标签
            correct += pred.eq(target.view_as(pred)).sum().item()  # 累加正确预测的数量

    val_loss /= len(val_loader)  # 计算平均验证损失
    val_accuracy = 100. * correct / len(val_loader.dataset)  # 计算验证准确率
    print(f'Validation Loss: {val_loss:.4f}, Accuracy: {correct}/{len(val_loader.dataset)} ({val_accuracy:.0f}%)')

    # 记录验证损失和准确率到 TensorBoard
    writer.add_scalar('Loss/validation', val_loss, epoch)
    writer.add_scalar('Accuracy/validation', val_accuracy, epoch)

    # 保存验证准确率最高的模型
    if val_accuracy > best_val_accuracy:
        best_val_accuracy = val_accuracy
        torch.save(model.state_dict(), '/mnt/data/output/best_model.pth')
        print(f'Model saved with accuracy: {best_val_accuracy:.2f}%')

# 关闭 SummaryWriter
writer.close()
print('Training complete. writer.close()')

上传代码。在数据集详情页，单击查看数据跳转至OSS控制台。然后单击上传文件 > 扫描文件 > 上传文件，将训练代码上传至OSS中。

创建DLC任务

在PAI控制台左侧菜单栏单击分布式训练DLC > 新建任务。

配置DLC任务参数。关键参数配置如下，其他参数默认即可。全量参数请参见创建训练任务。

节点镜像：选择镜像地址，然后根据您所在地域填写对应镜像地址。

地域	对应镜像地址
北京	dsw-registry-vpc.cn-beijing.cr.aliyuncs.com/pai/modelscope:1.28.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04
上海	dsw-registry-vpc.cn-shanghai.cr.aliyuncs.com/pai/modelscope:1.28.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04
杭州	dsw-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai/modelscope:1.28.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04
其他	查询地域ID，并替换镜像地址中的<地域ID>获取完整链接： dsw-registry-vpc.<地域ID>.cr.aliyuncs.com/pai/modelscope:1.28.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04

该镜像已在交互式建模 DSW 快速入门中验证没有环境问题。使用PAI建模时，通常先在DSW中验证环境、开发代码，然后再使用DLC训练。

数据集：选择自定义数据集，选择上一步中创建的数据集。挂载路径默认/mnt/data。
启动命令：python /mnt/data/mnist_train.py
该启动命令与在DSW或本地运行时相同。但由于mnist_train.py 现已挂载至 /mnt/data/，因此仅需要修改代码的路径为/mnt/data/mnist_train.py。
资源来源：选择公共资源，资源规格选择ecs.gn7i-c8g1.2xlarge即可。
如果该规格实例库存不足，您也可以选择其他GPU实例。

单击确定创建任务，任务大约需要执行15分钟。执行过程中可以单击日志查看训练过程。

执行完成后，会在挂载数据集的output路径下输出最佳的模型检查点，以及Tensorboard日志。

（可选）查看Tensorboard

您可以借助可视化工具Tensorboard查看loss曲线，了解训练的具体情况。

重要

DLC任务如果想使用Tensorboard，必须配置数据集。

单击DLC任务详情页上方的Tensorboard > 新建Tensorboard。
挂载类型选择按任务，在Summary目录处填写训练代码中Summary存储的路径：/mnt/data/output/runs/，单击确定启动。
对应代码片段：writer = SummaryWriter('/mnt/data/output/runs/mnist_experiment')
单击查看Tensorboard查看train_loss曲线（反映训练集损失）与 validation_loss曲线（反映验证集损失）。
（可选）根据loss图像，调整超参数，提升模型效果
您可以根据损失值的变化趋势，初步判断当前模型的训练效果：
- 在结束训练前 train_loss 与 validation_loss 仍有下降趋势（欠拟合）
  您可以增加 num_epochs（训练轮次，与训练深度正相关），或适当增大 learning_rate 后再进行训练，加大模型的对训练数据的拟合程度；
- 在结束训练前 train_loss 持续下降，validation_loss 开始变大（过拟合）
  您可以减少 num_epochs，或适当减小 learning_rate 后再进行训练，防止模型过度训练；
- 在结束训练前 train_loss 与 validation_loss 均处于平稳状态（良好拟合）
  模型处于该状态时，您可以进行后续步骤。
受限于篇幅，本文无法对微调参数做过多讲解。您可以学习阿里云大模型 ACP 课程来了解微调命令中的关键参数、以及如何通过损失曲线来决定是否应该继续微调等细节。

部署训练后的模型

详情请参见使用EAS将模型部署为在线服务。