PAI-DLC(Deep Learning Containers)是基于阿里巴巴容器服务ACK(Alibaba Cloud Container Service for Kubernetes)的深度学习训练平台,为您提供灵活、稳定、易用和极致性能的深度学习训练环境。

PAI-DLC架构图DLC图
PAI-DLC融合了PAI在深度学习方面的框架和网络优化技术,实现了近线性扩展的分布式计算能力。128卡的并行计算加速比达到了100以上。在千万图像数据集、数十万分类场景下,训练性能是开源框架的8倍以上。针对互联网行业的搜索、推荐、广告和信息流等场景,PAI-DLC支持千亿样本、百亿特征, 数千节点并行训练的能力,训练性能是开源框架的5倍以上。分布式框架PAI-DLC的功能:
  • 支持数据并行、模型并行及混合并行的分布式方案。
  • 支持添加已有的ACK集群。
  • 兼容社区Kubernetes接口,可以使用已有的镜像文件提交训练。
  • 在ACK内部署的训练管理控制台PAI-DLC Dashboard,支持通过可视化方式提交任务及监控任务进度。
  • 支持通过Arena(容器团队基于Kubernetes环境开发的一个适配AI的命令行工具)和Kubectl(Kubernetes集群的命令行工具)等方式提交、管理及查看任务。
  • 支持实时查看集群内GPU资源利用率,您可以更好地规划训练任务。