AIMaster接入C4D,通过网络通信探查,实现问题节点的识别和探查
优化内容
AIMaster C4D是由阿里云自研的用于大模型训练中任务Slow(慢)或任务Hang(挂起)的问题诊断工具,通过汇总任务内所有节点在集合通信过程中的状态信息,进而综合分析判断是否有节点出现了通信或非通信层面的问题。
文档内容是否对您有帮助?
AIMaster接入C4D,通过网络通信探查,实现问题节点的识别和探查
AIMaster C4D是由阿里云自研的用于大模型训练中任务Slow(慢)或任务Hang(挂起)的问题诊断工具,通过汇总任务内所有节点在集合通信过程中的状态信息,进而综合分析判断是否有节点出现了通信或非通信层面的问题。