场景描述

本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩展阿里云GPU服务实例+飞天AI加速工具,并采用阿里云CPFS存储,运行AI训练+AI推理作业的操作步骤。

解决的问题

  • 利用云企业网打通两个地域的VPC,自建Kubernetes集群。
  • 使用飞天AI加速工具运行训练和推理作业。
  • 使用CPFS存储共享数据。

部署架构图

混合云使用飞天AI加速工具架构图

选用的产品

  • 云企业网

    阿里云致力于为用户提供优质、高效、稳定的网络传输环境,云企业网(Cloud Enterprise Network)将提供一种能够快速构建混合云和分布式业务系统的全球网络,帮助用户打造一张具有企业级规模和通信能力的云上网络。

    更多关于云企业网的介绍,参见云企业网产品详情页

  • GPU服务器

    GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习,视频处理,科学计算,图形可视化,等应用场景。

    更多关于GPU服务器的介绍,参见GPU服务器产品详情页

  • 文件存储CPFS

    文件存储CPFS (Cloud Parallel File Storage),是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合IO、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探,气象分析,机器学习,大数据分析以及影视渲染等业务场景中。

    更多关于文件存储CPFS的介绍,参见文件存储CPFS详情页

  • 文件存储NAS

    阿里云文件存储NAS是一个可共享访问,弹性扩展,高可靠,高性能的分布式文件系统。兼容POSIX 文件接口,可支持数千台计算节点共享访问,可以挂载到弹性计算ECS、神龙裸金属、容器服务ACK、弹性容器ECI、批量计算BCS、高性能计算EHPC,AI训练PAI等计算业务上提供高性能的共享存储,用户无需修改应用程序,即可无缝迁移业务系统上云。

    更多关于文件存储NAS的介绍,参见文件存储NAS产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践