本方案适用于自然语言训练场景,使用GPU云服务器和极速型NAS进行BERT Finetune模型训练,使用AIACC-Training(AIACC训练加速)可以有效提升多机多卡的训练效率。
实现的方式
- 使用GPU云服务器搭建训练环境。
- 使用极速型NAS存储共享训练数据。
- 使用AIACC-Training(AIACC训练加速)进行加速训练。
部署架构图

选用的产品
- GPU服务器
GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。
更多关于GPU服务器的介绍,请参见GPU服务器产品详情页。
- 极速型NAS
阿里云文件存储NAS是一个可共享访问、弹性扩展、高可靠、高性能的分布式文件系统。NAS提供了容量型、性能型以及极速型存储类型。
其中,极速型NAS是基于阿里云最新一代网络架构和全闪存储打造的高性能共享文件存储产品,全托管的云存储服务与阿里云丰富的计算服务完全集成,充分发挥公共云计算生态的能力。
更多关于极速型NAS的介绍,请参见文件存储NAS产品详情页。
- 专有网络VPC
专有网络VPC帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP地址范围、网段、路由表和网关等;此外,也可以通过专线、VPN、GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。
更多关于专有网络VPC的介绍,请参见专有网络VPC产品详情页。
- BERT Finetune模型
BERT(Bidirectional Encoder Representations from Transformers)是一种新型的语言表示模型。分为预训练模型(Pretrain)和精调模型(Finetune)。Pretrain模型为通用的语言模型。Finetune只需要在Pretrain的基础上增加一层适配层,即可服务于从问答到语言推理等各类任务,无需为具体任务修改整体模型架构。
最佳实践详情
关于使用AIACC-Training(AIACC训练加速)加速BERT Finetune模型的更多信息,请参见AIACC加速Bert Finetune的最佳实践。