支持对训练任务的资源健康度与性能进行检查,提升训练成功率及问题诊断效率。
适用客户
AI大模型训练场景的客户。
新增功能/规格
算力健康检测(Sanity Check)功能,旨在对分布式训练任务的算力资源健康度与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少任务训练初期遇到问题的可能性,提升训练成功率。在检测完成后,会给出有关GPU算力以及通信性能的检测报告,可以帮助识别和定位可能导致任务训练性能下降的问题元素,整体提升问题诊断的效率。
目前仅支持在华北6(乌兰察布)地域,使用灵骏智算资源提交的DLC训练任务,开启健康检测功能。
产品文档
文档内容是否对您有帮助?