您可以通过FastGPU的命令行,快速地部署云上GPU集群,管理资源的生命周期。还可以便捷地为集群安装深度学习环境,在集群运行代码,查看运行日志以及释放资源。
前提条件
客户端已安装Python 3.6或以上版本。
环境准备
命令行说明
下表所有命令中的{instance_name}均表示单个实例名称,例如{instance_name}="task0.my_job"
,该命令仅对单个实例执行。您也可以使用{instance_name}="{my_job}"
,大括号{}表示以my_job为后缀的GPU集群。
命令 | 命令说明 | 命令示例 |
---|---|---|
|
查看所有FastGPU命令的帮助说明。 |
|
|
查看指定的FastGPU命令的帮助说明。 | fastgpu ls --help |
|
列出FastGPU用户创建的实例。包括以下信息:
参数说明: -a:列出您当前阿里云账户下所有实例。会提供Key-Owner(密钥对)和instance_id(实例id)两个额外的信息。 |
|
|
创建一个实例或一个集群。
参数说明:
|
|
|
使用SSH连接并登录到指定实例。
说明 您需要将本地的公网IP添加到安全组才可以通过SSH访问。建议您使用
fastgpu addip -a 命令快速添加。
|
使用SSH连接到task0.my_job实例:
|
|
将本地文件拷贝到实例中,或者是从实例中拷贝到本地。 |
|
|
查询阿里云支持的GPU实例规格。
参数说明:
|
|
|
查询阿里云支持的实例镜像。
参数说明: os_type:阿里云支持的os类型。包括CentOS、Ubuntu、Debian、SUSE、aliyun等。 |
|
|
查询实例的所有属性。属性包括CPU核数、GPU、镜像、内存大小、创建时间、密钥对、状态等信息。 |
|
|
释放指定的实例。
参数说明:
|
|
|
停止指定的实例。若为集群实例,可以通过指定实例名为{集群名字}来批量删除。
参数说明:
|
|
|
启动指定的实例。
参数说明: -y:跳过确认。 |
|
|
为指定的实例挂载NAS文件系统到/ncluster目录。
参数说明: mount_target_domain:指定NAS的挂载点。如果不指定,则会自动创建挂载点并挂载。 |
|
|
在指定实例中执行shell 命令。
参数说明: cmd:需要执行的命令。 |
|
|
为指定实例的安全组添加可访问的公网IP。
参数说明:
|
|
|
将IP从某一实例安全组中移除。
参数说明:
|
|
|
查询实例的安全组IP,默认只查询22端口对应的IP。
参数说明: -a:查询所有端口的IP。 |
|
|
将本机公钥添加进指定实例。
参数说明: string of id_rsa.pub:公钥路径。 |
将~/.ssh/id_rsa.pub内容添加到实例中:
|
|
重命名实例。
参数说明:
|
将task0.my_job实例重命名为my_new_ins:
|
|
使用SSH连接到实例,并使用默认的tmux进程。 | 登录task0.my_job实例,并创建一个tmux进程:
|
|
删除本机的密钥对。
说明 如果有实例正在使用此密钥对,删除该密钥对后,实例将会无法正常被连接和查询,但您可以通过
fastgpu ls -a 命令查询到。
|
删除~/.fastgpu/下对应的密钥对:
|
|
在本机创建一个密钥对,后续实例的创建以及连接都会使用此次创建的密钥对。 | 在本机~/.fastgpu/下创建一个密钥对:
|
|
将密钥对绑定到实例中。 |
|
|
从实例中分离密钥对。
说明 分离后将无法正常连接和查询该实例,建议您使用
attachkeypair 命令重新绑定后,即可恢复正常连接和查询。
|
|
|
在指定实例中创建部署jupyter notebook项目示例。
参数说明: passwd_of_login:指定jupyter-notebook服务器密码。 |
在task0.my_job实例中创建并部署项目示例:
|
|
为指定实例安装驱动,CUDA和cuDNN组件。默认值为:
参数说明:
|
|
|
为指定实例安装Conda,并创建出指定的Python、CUDA版本的虚拟环境。
参数说明:
说明 TensorFlow、PyTorch以及MXNet三个指定框架参数不支持同时存在。
|
|
|
在指定实例中安装所有支持的Conda环境。
说明 安装过程耗时较长。
|
|
|
替换指定实例的镜像。
参数说明: image_id:需要替换的镜像名称或镜像ID。 |
|
配置文件示例
示例文件create.cfg内容如下,参数请参考的fastgpu create
命令的相关说明。
[fastgpu]
name=fastgpu-v100
machines=1
system_disk_size=500
data_disk_size=0
image_name=
image_type=ubuntu_18_04
instance_type=ecs.gn6v-c8g1.2xlarge
spot=False
confirm_cost=False
mount_nas=True
vpc_name=fastgpu-vpc
install_cuda=True
[cmd]
install_script=pwd