场景描述

本方案适用于自然语言训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS进行NLP的训练,采用Bert模型。这里不使用容器,直接使用裸机进行NLP的Bert训练,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。

解决的问题

  • 使用神龙GPU云服务器搭建NLP训练环境
  • 使用SCC的RDMA网络
  • 使用CPFS存储训练数据
  • 使用飞天AI加速训练工具加速训练

部署架构图

超级计算集群结合ACK实现NLP训练

选用的产品

  • GPU服务器

    GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习,视频处理,科学计算,图形可视化,等应用场景。

    更多关于GPU服务器的介绍,参见GPU服务器产品详情页

  • 超级计算集群

    超级计算集群(Super Computing Cluster,SCC)使用高速RDMA网络互联的CPU以及GPU等异构加速设备,面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用,提供极致计算性能和并行效率的计算集群服务。

    更多关于超级计算集群的介绍,参见超级计算集群产品详情页面

  • 文件存储CPFS

    文件存储CPFS (Cloud Parallel File Storage),是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合IO、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探,气象分析,机器学习,大数据分析以及影视渲染等业务场景中。

    更多关于文件存储CPFS的介绍,参见文件存储CPFS详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践