EasyCKPT高性能CKPT发布

PAI为大模型训练场景而开发的高性能Checkpoint框架。

适用客户

AI大模型训练场景的客户。

新增功能/规格

PAI-EasyCKPT是为PyTorch大模型训练场景而开发的高性能Checkpoint框架,通过异步化层次化保存、重叠模型拷贝和计算、网络感知异步存储的策略, 实现近0开销的模型保存机制和大模型训练全过程精度无损的模型保存与恢复的能力。 支持主流大模型训练框架MegatronDeepSpeed,用户只需要少量代码改动即可使用。

产品文档

https://help.aliyun.com/zh/pai/user-guide/easyckpt