PAI DLC节点

更新时间:
复制为 MD 格式

人工智能平台PAI的分布式训练DLC,提供灵活、稳定、易用和高性能的机器学习训练环境。DataWorks为您提供了PAI DLC节点,您可以直接通过该节点载入DLC任务并配置调度依赖,实现DLC任务的周期性调度运行。

前提条件

操作步骤

  1. PAI DLC节点编辑页面,执行如下开发操作。

    开发任务代码

    您可根据业务需求选择以下方式编写DLC任务:

    基于已有DLC任务编写任务代码

    通过名称搜索,载入在人工智能平台PAI已创建的DLC任务。任务载入后,DLC节点编辑器会根据PAI中该任务的配置生成相应节点代码,您可基于该代码编辑修改任务。

    image

    说明

    直接编写DLC任务代码

    DataWorksPAI DLC节点编辑器中,根据需要直接编写任务代码。

    在节点编辑区域开发任务代码,您可在代码中使用${变量名}的方式定义变量,并在节点编辑页面右侧调度配置调度参数中为该变量赋值。实现调度场景下代码的动态传参,调度参数使用详情,请参考调度参数来源及其表达式,示例如下。

    dlc submit pytorchjob \    #使用DLC提交一个PyTorch任务。
        --name=test \    #DLC任务名称。建议使用变量名或DataWorks的节点名称。
        --command='echo '\''hi'\''' \    #任务代执行的命令,示例中执行的命令为echo 'hi'。    
        --workspace_id=309801 \   #执行任务的工作空间。
        --priority=1 \   #任务优先级,取值1-9,1优先级最低,9优先级最高。
        --workers=1 \    #任务节点数量。节点大于1时,表示该任务为分布式任务,即任务可并发在多个节点执行。
        --worker_image=<image> \   #指定worker运行的镜像路径。
        --image_repo_username=<用户名> \   #提供私有镜像授权。
        --image_repo_password=<密码> \   #提供私有镜像授权。
        --data_source_uris=oss://oss-cn-shenzhen.aliyuncs.com/::/mnt/data/:{mountType:jindo} \   #将对象存储OSS类型的数据源挂载到容器的指定路径,示例中挂载类型为jindo。
        --worker_spec=ecs.g6.xlarge   #节点配置,即所使用的计算节点规格。 
  2. 编写完PAI DLC任务,执行节点任务。

    1. 运行配置中选择配置资源组

      资源组选择与数据源测试连通性成功的调度资源组。详情请参见网络连通方案

    2. 在工具栏中单击运行节点任务。

  3. 如需定期执行节点任务,请根据业务需求配置调度信息。配置详情请参见节点调度配置

  4. 节点任务配置完成后,需对节点进行发布。详情请参见节点/工作流发布

  5. 任务发布后,您可以在运维中心查看周期任务的运行情况。详情请参见运维中心入门