文档

使用EAIS训练PyTorch模型

更新时间:

EAIS实例成功绑定至ECS实例后,您需要远程登录该ECS实例,然后使用EAIS实例训练PyTorch模型。本文为您介绍使用EAIS训练PyTorch模型的具体操作。

前提条件

已将EAIS实例绑定至ECS实例上。具体操作,请参见绑定ECS实例

背景信息

目前只有Python脚本可以训练PyTorch模型,本文介绍使用EAIS实例训练PyTorch模型的具体操作,如果您使用EAIS训练过程中遇到问题,请联系EAIS技术支持。

使用限制

仅支持在1个ECS实例上只绑定了1个EAIS实例的场景下,训练PyTorch模型。

操作步骤

  1. 远程登录ECS实例。

    1. 登录EAIS控制台

    2. 在页面左上角选择实例所在地域。

    3. 在实例列表中,单击EAIS实例对应的ECS实例ID,进入该ECS实例控制台。

    4. 远程登录ECS实例。

      具体操作,请参见远程连接ECS实例

  2. 安装eais-tool软件包,然后查看EAIS实例的相关信息。

    具体操作,请参见eais-tool

  3. 安装CUDA 11.X.X版本软件包。

    1. 执行如下命令,下载并安装CUDA软件包。

      说明

      本操作以安装CUDA 11.7.0版本为例,具体命令以您实际安装的CUDA版本为准。

      wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
      sudo sh cuda_11.7.0_515.43.04_linux.run --silent --toolkit
    2. 执行如下命令,设置CUDA相关的环境变量。

      export PATH=/usr/local/cuda/bin:$PATH
      export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
  4. 安装eais-cuda软件包。

    具体操作,请参见eais-cuda

  5. 部署您的训练程序,然后训练PyTorch模型。

  • 本页导读 (1)