AI训练场景的计算任务提交-分布式训练DLC-人工智能平台PAI-阿里云

分布式训练DLC（Deep Learning Containers）可以帮助您快捷地创建单机或分布式训练任务，其底层使用Kubernetes拉起计算节点。这避免了您手动购买机器并配置运行环境，同时无需改变使用习惯。适用于需要快速启动训练任务的用户，支持多种深度学习框架，并提供灵活的资源配置选项。

产品优势

支持多样算力资源：
基于灵骏智算和通用计算资源，支持云上ECS、ECI、神龙裸金属和灵骏裸金属等多种算力形态，实现异构算力的混合调度。
多样的分布式任务类型：
无需搭建各种集群，可以直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多种训练框架的任务。DLC预置了多种官方镜像，支持自定义开发运行环境，支持控制台、SDK或命令行的提交方式，为AI训练场景提供一站式服务。
高稳定：
在大模型训练场景中，通过自研的容错引擎AIMaster、高性能Checkpoint框架EasyCKPT、健康检测SanityCheck以及节点自愈功能，使DLC具备快速探查、准确感应与快速反馈的能力。能够有效解决多种稳定性问题，降低算力损失，提升训练稳定性。
高性能：
通过自研的AI训练加速框架，实现统一数据并行、流水并行、算子拆分以及嵌套的并行加速策略。通过并行策略自动探索和多维度显存优化技术，并结合高速网络的拓扑感知调度，以及通信线程池、梯度分组融合、混合精度通信、梯度压缩的分布式通信库的优化，提升分布式训练效率。尤其在大模型分预训练、持续训练和Alignment的分布式训练场景下，为您提供较优的训练引擎。

通过分布式训练（DLC）提交训练任务时，根据使用场景和所需的算力类型，PAI提供了以下两种资源形态：

灵骏智算：专为大模型训练设计，适用于需要大量计算资源的深度学习任务。是面向超大规模深度学习和融合智算，基于软硬件一体优化技术。构建高性能异构算力底座，提供全流程AI工程化能力，具备高性能、高效率、高利用率等核心优势，以满足在大模型训练、自动驾驶、基础科研以及金融等领域的广泛需求。
通用计算：适用于常规训练需求，能够灵活地支持多种规模和类型的机器学习任务。

灵骏智算和通用计算资源支持以下几种使用方式：