通用训练资源是基于阿里巴巴容器服务ACK(Alibaba Cloud Container Service for Kubernetes)的深度学习训练资源,为您提供灵活、稳定、易用和高性能的深度学习训练环境。本文介绍通用训练资源的功能亮点、计费规则以及可用区。
功能简述
通过通用训练资源和ACK,算法科学家们可以利用PAI团队深度优化的PAI-TensorFlow或PAI-Pytorch组件,方便快速地提交深度学习任务、监控任务进度,并便捷地查看结果。同时,您可以购买GPU服务器,以构建ACK集群,通过Arena可以管理集群内的可用GPU资源,从而更好地规划训练任务。
功能亮点
- 支持训练按照任务实际使用时长付费。
- 支持自定义运行环境。
- 支持编程式离线调度。
- 支持超大规模分布式训练。
可用区
通用训练资源支持华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、新加坡。
计费规则
计费规则请参见PAI-DLC计费说明。
使用流程
- 授权:
为PAI-DLC服务关联角色进行云资源访问授权,详情请参见云产品依赖与授权:DLC。
- 新建通用训练资源:
PAI-DLC授权成功后,默认创建公共资源组。您也可以新建通用训练资源专有资源组并购买计算资源,操作详情请参见新建及管理通用训练资源。
- 使用通用训练资源:
- 用来提交容器训练(DLC)任务,操作详情请参见提交任务(通过控制台)。
- 用来创建PAI-DSW实例,操作详情请参见创建及管理DSW实例。