本文为您介绍DSW完整的使用流程。
步骤一:准备工作
准备资源组
创建DSW实例前,您需要准备好训练任务所需的通用计算资源(包括公共资源组和专有资源组)或灵骏智算资源(包括专有资源组)。
公共资源组:在开通PAI并完成DLC授权后,系统将为您准备好公共资源组,无需手动添加。
专有资源组:如果您需要使用专有资源组,则需要先购买并配置资源组,详情请参见新建及管理通用计算资源和新建资源组并购买灵骏智算资源。
(可选)准备数据集
创建DSW实例时,实例的默认存储方式如下:
使用公共资源组创建DSW实例时,PAI将赠送免费云盘,默认云盘存储空间有限。实例停止不会影响云盘,在删除实例后,云盘数据将被清空。
使用专有资源组创建DSW实例时,DSW实例使用自带的系统盘作为临时存储。在停止或删除实例后,临时存储将被清空。
您可以通过挂载数据集来扩展实例的存储空间,实现数据持久化存储。目前支持挂载OSS、NAS和CPFS类型的数据集,如何创建数据集,请参见创建及管理数据集。
(可选)准备镜像
创建DSW实例前,您需要准备好需要安装的镜像,DSW实例将基于所选择的镜像来构建运行环境。目前支持选择以下类型的镜像:
官方镜像
DSW预置了多种类型的官方镜像,例如pytorch、tensorflow、modelscope等。每种镜像均提供了不同的版本,以满足您对特定框架版本的需求,从而方便您进行模型开发、训练和部署等工作。
自定义镜像
您也可以使用已创建的自定义镜像来满足特定场景下的开发需求。关于如何创建自定义镜像,请参见自定义镜像。
步骤二:创建及访问DSW实例
创建实例
完成上述准备工作后,您可以创建DSW实例,请参见创建DSW实例。
管理实例
实例创建完成之后,您可以管理实例的生命周期,对实例进行启动、停止和删除等操作。您也可以更换实例配置,如实例规格、镜像和数据集等。具体方法请参见 管理DSW实例。
为了优化节约成本,建议您配置好闲置关机和定时关机策略。对于免费试用计划的实例,DSW实例自动开启闲置关机;通用场景下,用户管理员可以在工作空间调度中心配置资源回收策略,请参见工作空间调度中心。此外,建议您在不需要使用DSW实例时,及时停止实例。需要注意的是,临时存储的数据在停止实例后将被清空,请及时导出数据。
访问实例
推荐您通过控制台打开DSW实例,DSW提供了丰富的IDE环境,包含Notebook、WebIDE和Terminal工具,并且可以查看资源水位等,使用方法请参见访问DSW实例。您也可以通过SSH远程连接DSW实例,具体操作请参见连接DSW实例。
步骤三:使用DSW实例
模型开发与训练
您可以直接在DSW实例页面进行模型开发,DSW实例提供了交互式的开发环境,便于调试代码和查看运行结果。您可以管理第三方库,以满足特定的环境需求。
分布式训练的具体操作,请参见创建训练任务。
模型部署
您可以将训练好的模型部署为EAS在线服务,以实现模型推理功能。具体操作,请参见模型部署。
数据传输
除了挂载数据集之外,DSW在使用过程中还支持接入多种数据源,包括OSS和MaxCompute。您可以将开发所需的数据文件从不同的数据源导入到DSW实例中,并将处理后的数据导出到指定的数据源,请参见读写数据。
此外,DSW实例还提供了数据上传和下载功能,以及Notebook的导出和分享功能,请参见文件传输与处理。
步骤四:玩转DSW实例
最佳实践
DSW Gallery提供了丰富的Notebook案例,包括LLM、AIGC前沿领域,覆盖了Llama2、通义千问、Stable Diffusion等热门模型,您可以选择感兴趣的内容,在DSW一键直接运行,以及进行二次开发。请参见Notebook Gallery。
高阶功能
除了上述功能之外,DSW还支持以下高阶应用场景:
在DSW利用Tensorboard进行训练可视化,请参见Tensorboard:训练可视化。
在DSW运行R语言,请参见DSW支持R语言。
在DSW使用SQL查询MaxCompute数据源,请参见使用SQL File查询MaxCompute表。
在DSW连接EMR集群,提交Spark作业,请参见DSW连接EMR集群。
更多操作实践,请参见DSW使用案例汇总。