基础设施安全

可用区间故障隔离

可用区是指在同一地域内,电力和网络互相独立的物理区域。

在同一地域内,可用区与可用区之间内网互通。各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同地域的可用区完全隔离,但同一个地域内的可用区之间使用低时延链路相连。

弹性自动容错

PAI提供基于AIMaster的容错监控能力。AIMaster作为任务级别组件,当任务开启容错监控功能后,会拉起AIMaster实例,与任务其它实例一起运行,进行任务监控、容错判断、资源控制的作用。详细请参见AIMaster:弹性自动容错引擎

算力健康检测

进行AI训练时,DLC提供算力健康检测能力,对分布式训练任务的算力资源健康度与性能进行检查。在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少任务训练初期遇到问题的可能性,提升训练成功率。在检测完成后,会给出有关GPU算力以及通信性能的检测报告,可以帮助识别和定位可能导致任务训练性能下降的问题元素,整体提升问题诊断的效率。详细使用说明请参见SanityCheck:算力健康检测

基础设施监控

支持接入云监控,构建并巩固您的安全防御体系。相关介绍: