分布式训练DLC(Deep Learning Containers)是基于云原生的AI训练平台,为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境。它支持多种算法框架,能够处理大规模的分布式深度学习任务,同时也支持自定义算法框架。通过DLC,开发者和企业能享受到更优的训练环境,在降低成本的同时提升训练效率。
产品优势
支持多样算力资源:
基于灵骏智算和通用计算资源,支持云上ECS、ECI、神龙裸金属和灵骏裸金属等多种算力形态,实现异构算力的混合调度。
多样的分布式任务类型:
DLC作为分布式训练系统,您不需要搭建各种集群,可以直接提交Megatron、Deepspeed、Pytorch、Tensorflow、Slurm、Ray、MPI及XGBoost等十多种训练框架的任务。DLC预置了多种官方镜像,支持自定义开发运行环境, 支持控制台、SDK或命令行的提交方式, 为AI训练场景提供一站式服务,也为大型客户提供简单的集成方式。
高稳定:
在大模型训练场景中,通过自研的容错引擎AIMaster、高性能Checkpoint框架EasyCKPT、健康检测SanityCheck以及节点自愈功能,PAI-DLC能够有效解决多种稳定性问题。PAI-DLC具备快速探查、准确感应与快速反馈的能力,有效降低算力损失,提升训练稳定性。
高性能:
通过PAI自主研发的AI训练加速框架,实现统一数据并行、流水并行、算子拆分以及嵌套的并行加速策略。通过并行策略自动探索和多维度显存优化技术,并结合高速网络的拓扑感知调度,以及通信线程池、梯度分组融合、混合精度通信、梯度压缩的分布式通信库的优化,提升分布式训练效率。尤其在大模型分预训练、持续训练和Alignment的分布式训练场景下,为您提供较优的训练引擎。
资源形态
通过分布式训练(DLC)提交训练任务时,根据使用场景和所需的算力类型,PAI提供了以下两种资源形态:
灵骏智算:专为大模型训练设计,适用于需要大量计算资源的深度学习任务。是面向超大规模深度学习和融合智算,基于软硬件一体优化技术。构建高性能异构算力底座,提供全流程AI工程化能力,具备高性能、高效率、高利用率等核心优势,以满足在大模型训练、自动驾驶、基础科研以及金融等领域的广泛需求。
通用计算:适用于常规训练需求,能够灵活地支持多种规模和类型的机器学习任务。
灵骏智算和通用计算资源支持以下几种使用方式:
资源配额:您可以通过包年包月的方式提前购买灵骏智算或通用计算资源,用于AI开发和训练,从而实现资源的灵活管理和高效利用。
公共资源:无需提前购买资源,您可以在提交训练任务时,按需使用灵骏智算或通用计算资源,并通过按量付费的方式进行结算。
竞价资源:灵骏智算提供竞价资源,助力您以较低成本获取所需的AI算力,从而降低任务运行所需的资源成本。
应用场景
数据预处理
支持您自定义运行环境,可以对数据进行离线并行预处理,从而大幅降低数据预处理工程的难度。
大规模分布式训练
支持使用多种开源深度学习框架进行离线大规模分布式深度训练。DLC支持上千个节点同时训练,显著缩短训练时间。
离线推理
通过DLC可以离线对模型进行离线推理,有效增加闲时GPU机器使用率,大大降低资源浪费。