EAIS实例成功绑定至ECS实例后,您需要远程登录该ECS实例,然后使用EAIS实例训练PyTorch模型。本文为您介绍使用EAIS训练PyTorch模型的具体操作。
前提条件
已将EAIS实例绑定至ECS实例上。具体操作,请参见绑定ECS实例。
背景信息
目前只有Python脚本可以训练PyTorch模型,本文介绍使用EAIS实例训练PyTorch模型的具体操作,如果您使用EAIS训练过程中遇到问题,请联系EAIS技术支持。
使用限制
仅支持在1个ECS实例上只绑定了1个EAIS实例的场景下,训练PyTorch模型。
操作步骤
远程登录ECS实例。
安装eais-tool软件包,然后查看EAIS实例的相关信息。
具体操作,请参见eais-tool。
安装CUDA 11.X.X版本软件包。
执行如下命令,下载并安装CUDA软件包。
说明本操作以安装CUDA 11.7.0版本为例,具体命令以您实际安装的CUDA版本为准。
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run sudo sh cuda_11.7.0_515.43.04_linux.run --silent --toolkit
执行如下命令,设置CUDA相关的环境变量。
export PATH=/usr/local/cuda/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
安装eais-cuda软件包。
具体操作,请参见eais-cuda。
部署您的训练程序,然后训练PyTorch模型。
文档内容是否对您有帮助?