使用Pai-Megatron-Patch进行模型的训练加速时,您需要先完成Pai-Megatron-Patch镜像的安装。本文为您介绍安装Pai-Megatron-Patch镜像的使用限制和操作要点。
使用限制
安装Pai-Megatron-Patch镜像时,仅支持使用GPU类型的实例。
显卡驱动版本在460.32及以上。
操作步骤
在DLC中安装Pai-Megatron-Patch镜像
DLC为开发者和企业提供了云原生一站式的深度学习训练平台,为您提供灵活、稳定、易用和高性能的机器学习训练环境。支持多种算法框架,超大规模分布式深度学习任务运行及自定义算法框架,为开发者和企业降本增效。
DLC提供了加载用户自定义镜像的能力,这极大方便了Pai-Megatron-Patch的部署。只需将镜像地址传给DLC,即可自动安装Pai-Megatron-Patch镜像,安装完成后就可以在DLC上基于Pai-Megatron-Patch开展多机多卡超大规模分布式训练。
具体安装步骤如下。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC),单击新建任务。
关键配置信息如下所示,其他参数根据实际情况配置即可,参数详情请参见创建训练任务。
环境信息:节点镜像选择镜像地址,并在镜像地址的配置框中填写Pai-Megatron-Patch镜像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
资源信息:
框架选择PyTorch。
任务资源:在资源规格列单击,选择GPU类型的节点,并根据实际情况选择具体节点规格。
单击确定。
在DSW中安装Pai-Megatron-Patch镜像
DSW是为算法开发者量身打造的云端深度学习开发环境,集成JupyterLab,插件化深度定制化开发,无需任何运维配置,沉浸式体验Notebook编写、调试及运行Python代码。支持开源框架的安装,并提供阿里巴巴深度优化的Tensorflow框架,通过编译优化提升训练性能。
DSW也提供了加载用户自定义镜像的能力,只需将镜像地址传给DSW,即可自动安装Pai-Megatron-Patch,安装完成后就可以在DSW上基于Pai-Megatron-Patch调试训练加速程序。
具体安装步骤如下。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏选择模型开发与训练 > 交互式建模(DSW),单击创建实例。
关键配置信息如下所示,其他参数根据实际情况配置即可,参数详情请参见创建DSW实例。
资源配额:选择公共资源(后付费)。
资源规格:单击,根据实际使用场景选择所需的GPU类型的实例规格。
镜像:在镜像地址的配置框中填写Pai-Megatron-Patch镜像地址:
pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
。
单击确定,创建DSW实例。
安装后使用
安装Pai-Megatron-Patch镜像后,您可以在Pai-Megatron-Patch的examples文件夹中查看相关示例并使用。