人工智能平台PAI的分布式训练DLC,提供灵活、稳定、易用和高性能的机器学习训练环境。DataWorks为您提供了PAI DLC节点,您可以直接通过该节点载入DLC任务并配置调度依赖,实现DLC任务的周期性调度运行。
前提条件
已授权DataWorks可访问人工智能平台PAI。
您可进入授权界面进行一键授权,权限策略详情请参见AliyunServiceRoleForDataWorksEngine。仅阿里云主账号或拥有AliyunDataWorksFullAccess权限策略的RAM用户可执行一键授权操作。
已开发创建项目目录,详情请参见项目目录。
已创建PAI DLC节点,详情请参见创建任务节点。
操作步骤
在PAI DLC节点编辑页面,执行如下开发操作。
开发任务代码
您可根据业务需求选择以下方式编写DLC任务:
基于已有DLC任务编写任务代码直接编写DLC任务代码通过名称搜索,载入在人工智能平台PAI已创建的DLC任务。任务载入后,DLC节点编辑器会根据PAI中该任务的配置生成相应节点代码,您可基于该代码编辑修改任务。
若无权限载入或创建任务,则可根据界面指引进行授权。
若无可用任务,则可前往PAI控制台新建。PAI DLC任务可通过多种方式创建,您可根据需要选择,详情请参见创建训练任务、提交训练任务:Python SDK、提交训练任务:命令行。
在DataWorks的PAI DLC节点编辑器中,根据需要直接编写任务代码。
在节点编辑区域开发任务代码,您可在代码中使用${变量名}的方式定义变量,并在节点编辑页面右侧调度配置的调度参数中为该变量赋值。实现调度场景下代码的动态传参,调度参数使用详情,请参考调度参数支持格式,示例如下。
dlc submit xgboostjob \ #提交DLC任务。 --name=wsytest_pai04_XGBoost \ #DLC任务名称。建议使用变量名或DataWorks的节点名称。 --command='echo '\''${变量名}'\'';' \ #DLC任务待执行的命令。 --workspace_id=80593 \ #执行DLC任务的工作空间。 --priority=1 \ #任务优先级,取值1-9,1优先级最低,9优先级最高。 --workers=1 \ #任务节点数量。节点大于1时,表示该任务为分布式任务,即任务可并发在多个节点执行。 --worker_image=registry.cn-hangzhou.aliyuncs.com/pai-dlc/tensorflow-training:2.3-cpu-py36-ubuntu18.04 \ #节点镜像,用于提供DLC任务运行的环境。 --worker_spec=ecs.g6.xlarge #节点配置,即所使用的计算节点规格。
编写完PAI DLC任务,执行节点任务。
在调试配置的计算资源中,选择配置DataWorks资源组。
资源组选择与数据源测试连通性成功的调度资源组。详情请参见网络连通方案。
在工具栏的参数对话框中选择单击运行节点任务。
如需定期执行节点任务,请根据业务需求配置调度信息。配置详情请参见调度配置。
节点任务配置完成后,需对节点进行发布。详情请参见节点发布。
任务发布后,您可以在运维中心查看周期任务的运行情况。详情请参见运维中心入门。
- 本页导读 (1)
- 前提条件
- 操作步骤