ACK集群实现GPU AI模型训练

本文介绍GPU AI模型训练的场景描述、解决问题、架构图及操作参考链接。

场景描述

本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。

解决问题

  • 搭建AI图片训练基础环境。
  • 使用CPFS存储训练数据。
  • 使用飞天AI加速训练工具加速训练。
  • 使用Arena一键提交作业。

架构图

image

参考链接

有关GPU AI模型训练的详情,请参见GPU AI模型训练