PAI-TF是深度学习计算框架,支持多种模型训练。您可以使用PAI-Studio、MaxCompute Console以及Dataworks的开发节点调用PAI-TF。
使用限制
目前仅北京和上海两个地域支持调用PAI-TF。
使用PAI-Studio调用PAI-TF
- 登录PAI Console,在左侧导航栏,单击,进入PAI可视化建模页面。

创建项目时,建议您使用按量付费模式(后付费),并开启GPU,PAI-TF任务只能在GPU资源中运行。
- 单击目标项目操作列的进入机器学习。
- 在机器学习PAI页面的左侧导航栏,单击首页。
- 单击的从模板创建。

模板已经内置了训练代码和数据,您可以通过模板快速了解PAI-TF的用法。
模板案例是基于开源图像数据cifar10的图像分类案例,您可以从CIFAR 10案例中获取数据和代码。
- 配置新建试验对话框的名称、描述以及位置参数。
- 单击确定,进入实验页面。
实验流程如下图所示。

说明如下:
- 您可以使用OSS或MaxCompute表作为数据源,详情请参见PAI-TF数据IO方式介绍。
- 执行任务前,您需要使用主账号授予PAI读取OSS数据的权限。步骤如下:
- 在机器学习PAI页面左侧导航栏,单击设置。
- 在基本设置区域,勾选授权机器学习读取我的OSS中的数据。
需要主账号登录,并在设置页面进行OSS授权
- 如果您使用的是实验模板,您需要修改TensorFlow的checkpoint为自己OSS的checkpoint即可,如下图所示。

训练组件参数如下表所示。
页签 |
参数 |
描述 |
参数设置 |
Tensorflow版本 |
您可以根据代码选择合适的Tensorflow版本。 |
Python代码文件 |
您需要将执行的代码放至OSS路径下。如果是工程文件,则需要使用tar.gz格式的压缩包。
|
Python主文件 |
如果代码文件使用的tar.gz压缩包,则需要指定入口Python文件。 |
OSS数据源 |
输入的OSS地址。 |
配置文件超参及用户自定义参数 |
您可以单击文件夹,在OSS Bucket上选择或上传文件。 |
checkpoint输出目录/模型输入目录 |
选择自己的OSS路径用来存放模型。 |
MaxCompute输出表 |
MaxCompute输出表必须是已经创建的表,并且输出的表名称需要与代码中的输出表名称一致。 |
建表SQL语句 |
如果代码中的输出表不存在,则您可以通过输入框输入建表语句创建表。
建表语句会在TF脚本执行前执行,示例建表语句为create table iris_output(f1 DOUBLE,f2 DOUBLE,f3 DOUBLE,f4 DOUBLE,f5 STRING); 。
|
请输入计划作业运行最大时长 |
运行作业的最大时长。 |
分布式参数如下表所示。
页签 |
参数 |
描述 |
执行调优 |
单机或分布式 |
计算的机器数量。 |
指定worker GPU卡数 |
每个worker的GPU卡数。
例如,worker个数为3,指定worker GPU卡数为2,则总卡数为3*2=6 。
|
指定worker个数 |
分布式计算的机器数量。 |
指定ps个数 |
参数服务器的个数,通常不超过worker个数的50%。 |
使用MaxCompute Console调用PAI-TF
MaxCompute是阿里云自研的大数据计算平台,PAI是基于MaxCompute建设的人工智能平台,PAI-TF可以在MaxCompute上计算运行,本小节为您介绍如何基于MaxCompute
Console工具运行PAI任务。
您需要购买PAI的后付费服务,才可以使用MaxCompute Console方式运行PAI-TF任务。
MaxComupute Console是一个可以被封装的命令行工具,您可以下载并安装,详情请参见客户端。配置好环境后,您可以进入命令行工具,输入PAI-TF命令运行脚本,详情请参见PAI-TF任务参考文档。
使用Dataworks开发节点调用PAI-TF
- 登录Dataworks管理控制台。
- 单击目标工作空间操作列的进入数据开发。
Dataworks与PAI-Studio公用项目,创建项目时需要开通底层MaxCompute引擎,并选择后付费模式。
- 在数据开发页面,单击
图标,选择。
- 配置新建节点对话框的节点类型、节点名称以及目标文件夹参数。

新建节点之前,您需要先创建业务流程,详情请参见
创建业务流程。
- 复制需要执行的PAI命令至SQL编辑框,并单击
图标运行。示例如下。

在文档使用中是否遇到以下问题
更多建议
匿名提交