PAI-DLC支持公共资源组自运维资源组专有资源组集群。本文为您介绍如何在PAI-DLC中准备适合自己的工作集群。

前提条件

  • 已为PAI-DLC服务关联角色授权,详情请参见云产品依赖与授权:DLC
  • 如果您使用自运维资源组集群,您还需完成创建Kubernetes 1.20版的ACK集群,并为ACK集群开启公网Ingress服务,详细操作请参见创建Kubernetes专有版集群开启公网Ingress服务
    说明 当前暂时不支持Kubernetes 1.22版的ACK集群。
  • 如果您使用专有资源组集群,则需要联系您的商务经理为您的账号开通白名单。

背景信息

  • 公共资源组按照任务实际时长计费,您无需自行维护计算资源集群,只需要明确任务需要使用的资源类型即可。关于资源类型和定价,请参见PAI-DLC计费说明
  • 专有资源组需要购买计算资源,关于计算资源的定价,详情请参见PAI-DLC计费说明
  • 自运维资源组不额外计费,您只需要支付底层ACK计算资源和相关网络组件的费用。关于ACK集群的计费,详情请参见产品计费

准备公共资源组工作集群

  1. 进入PAI-DLC页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击资源管理 > 资源仪表,进入DLC页面。
  2. 在PAI-DLC页面,您可以看到系统自动创建的公共资源组集群,表明公共资源组集群已准备完毕。
    公共资源组集群

准备专有资源组工作集群

  1. 创建专有资源组集群。
    1. 在PAI-DLC页面,单击新建集群
    2. 新建资源组面板,配置参数。
      参数 描述
      资源组名称 PAI-DLC集群名称,参考界面提示信息配置。
      描述 PAI-DLC添加的集群信息,便于区分不同的集群。
      类型 选择专有资源组
      所属工作空间 选择所属的工作空间。
    3. 单击确定

      新添加的集群会显示在PAI-DLC页面的集群列表下。

  2. 为专有资源组集群购买计算资源。
    1. 在PAI-DLC页面的集群列表,单击专有资源组集群操作列的集群管理集群管理
    2. 在专有资源组详情页面,单击新建资源
    3. 在PAI-DLC预付费页面设置以下参数后,单击立即购买并完成支付。
      参数 说明
      地域和可用区 参考界面提示选择资源组所属地域。
      资源组ID 您可以在列表中选择资源组ID。
      节点规格 您可以在列表中选择节点规格。
      节点数量 取值范围:1~100。
      购买时长 取值范围:1个月,2个月,3个月,4个月,5个月,6个月,12个月。

准备自运维资源组工作集群

  1. 在PAI-DLC页面,单击新建集群
  2. 新建资源组面板,配置参数。
    参数 描述
    资源组名称 PAI-DLC集群名称,参考界面提示信息配置。
    描述 PAI-DLC添加的ACK集群信息,便于区分不同的集群。
    类型 选择自运维资源组
    ACK集群 PAI-DLC支持以下方式添加ACK集群:
    • ACK集群列表,选择已有的可绑定的ACK集群
    • 单击ACK集群后的新建集群,进入ACK管理控制台,新建Kubernetes 1.20版的ACK集群,详情请参见创建Kubernetes专有版集群
    组件版本 PAI-DLC组件的版本。
  3. 单击确定
    新添加的集群会显示在PAI-DLC管理控制台页面的集群列表下。如果该集群的状态部署中变为运行中,则可以开始深度学习训练。

DLC资源组应用及管理

准备好DLC资源组集群后,您即可应用管理DLC资源组,例如使用DLC资源组进行训练任务提交,详情请参见训练任务提交:使用公共/专有DLC资源组训练任务提交:使用自运维DLC资源组。此外,创建的自运维DLC资源组,您可以进行查看操作日志、删除资源组集群、降版本等管理操作。资源组管理
  • 单击集群控制台,您可进入PAI-DLC Dashboard页面,可在此页面查看集群详情、提交训练任务等操作,详情请参见训练任务提交:使用自运维DLC资源组
  • 单击组件,您可查看当前创建的专有资源组的组件版本即组件列表,您也可在此入口中根据界面提示调整组件版本。
  • 单击日志,您可查看当前集群创建等操作的日志,便于问题定位排查。
  • 单击删除,您可以将无用的资源组集群删除。
  • 查看专有资源组详情。
    单击专有资源组名称,进入资源组详情页签。您可以查看该资源组的基本信息和每个资源组机器的CPU内存GPU资源组详情
    您也可以在该页面切换左侧功能页签,查看资源组水位资源组水位
    • 资源概览区域,您可以了解该资源组下CPU、内存和GPU的整体使用量。
    • 实时用户资源概览页签,您可以查看该资源组下每个节点的资源使用量。
    • 任务队列列表页签,您可以查看使用该资源组创建的任务列表,包括计算任务交互式建模任务。您也可以直接使用该资源组创建DLC任务和DSW实例。