AIMaster-C4D实现网络通信保障节点健康的能力

AIMaster接入C4D,通过网络通信探查,实现问题节点的识别和探查

优化内容

AIMaster C4D是由阿里云自研的用于大模型训练中任务Slow(慢)或任务Hang(挂起)的问题诊断工具,通过汇总任务内所有节点在集合通信过程中的状态信息,进而综合分析判断是否有节点出现了通信或非通信层面的问题。