安装Pai-Megatron-Patch镜像

使用Pai-Megatron-Patch进行模型的训练加速时,您需要先完成Pai-Megatron-Patch镜像的安装。本文为您介绍安装Pai-Megatron-Patch镜像的使用限制和操作要点。

使用限制

  • 安装Pai-Megatron-Patch镜像时,仅支持使用GPU类型的实例。

  • 显卡驱动版本在460.32及以上。

操作步骤

DLC中安装Pai-Megatron-Patch镜像

DLC为开发者和企业提供了云原生一站式的深度学习训练平台,为您提供灵活、稳定、易用和高性能的机器学习训练环境。支持多种算法框架,超大规模分布式深度学习任务运行及自定义算法框架,为开发者和企业降本增效。

DLC提供了加载用户自定义镜像的能力,这极大方便了Pai-Megatron-Patch的部署。只需将镜像地址传给DLC,即可自动安装Pai-Megatron-Patch镜像,安装完成后就可以在DLC上基于Pai-Megatron-Patch开展多机多卡超大规模分布式训练。

具体安装步骤如下。

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

  3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC),单击新建任务

  4. 关键配置信息如下所示,其他参数根据实际情况配置即可,参数详情请参见创建训练任务

    • 环境信息节点镜像选择镜像地址,并在镜像地址的配置框中填写Pai-Megatron-Patch镜像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm

    • 资源信息

      • 框架选择PyTorch

      • 任务资源:在资源规格列单击image,选择GPU类型的节点,并根据实际情况选择具体节点规格。

    image

    image

  5. 单击确定

DSW中安装Pai-Megatron-Patch镜像

DSW是为算法开发者量身打造的云端深度学习开发环境,集成JupyterLab,插件化深度定制化开发,无需任何运维配置,沉浸式体验Notebook编写、调试及运行Python代码。支持开源框架的安装,并提供阿里巴巴深度优化的Tensorflow框架,通过编译优化提升训练性能。

DSW也提供了加载用户自定义镜像的能力,只需将镜像地址传给DSW,即可自动安装Pai-Megatron-Patch,安装完成后就可以在DSW上基于Pai-Megatron-Patch调试训练加速程序。

具体安装步骤如下。

  1. 登录PAI控制台

  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

  3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 交互式建模(DSW),单击新建实例

  4. 关键配置信息如下所示,其他参数根据实际情况配置即可,参数详情请参见创建DSW实例

    • 资源配额:选择公共资源(后付费)

    • 资源规格:单击image,根据实际使用场景选择所需的GPU类型的实例规格。

    • 镜像:在镜像地址的配置框中填写Pai-Megatron-Patch镜像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm

    image

  5. 单击确定,创建DSW实例。

安装后使用

安装Pai-Megatron-Patch镜像后,您可以在Pai-Megatron-Patchexamples文件夹中查看相关示例并使用。