本文为您介绍DSW完整的使用流程。
步骤一:准备工作
权限开通
使用主账号开通PAI并创建工作空间。建议您开通服务时点击服务角色授权,避免在使用子产品时多次授权,详情见开通PAI并创建工作空间。
操作账号授权。操作账号,即用户操作时使用的云账号。当使用主账号操作DSW时,可跳过此步。当使用RAM账号操作时,需要进行操作账号授权。
PAI服务账号授权。PAI服务账号,用于PAI服务访问其它PAI子产品或其它云产品。如果在步骤a中已点击服务角色授权,可跳过此步。否则,请分别进行DSW服务账号授权和DLC服务账号授权。
【可选】准备专有资源组
在完成步骤1后,系统将为您准备好公共资源组。当您需要使用专有资源组时,请参见新建及管理通用计算资源和新建资源组并购买灵骏智算资源。
【可选】挂载数据集
公共资源组和专有资源组默认数据存储空间有限,且无法持久化存储,因此,当您需要扩展实例的存储空间或持久化存储数据时,可通过挂载NAS、OSS类型数据集或OSS路径的方式实现。新建数据集,请参见创建及管理数据集。
重要公共资源组的DSW实例,数据存储在空间有限的免费云盘中,在删除实例或停机超过15天后,云盘数据将被清空。
专有资源组的DSW实例,数据存储在实例的系统盘中,在停止或删除实例后,临时存储将被清空。
【可选】自定义镜像
DSW预置了多种类型的官方镜像,例如PyTorch、TensorFlow、ModelScope等。如果您需要自定义镜像来满足特定场景下的开发需求,请参见自定义镜像。
步骤二:创建及访问DSW实例
创建实例
DSW实例创建,请参见创建DSW实例。
管理实例
访问实例
步骤三:使用DSW实例
模型开发与训练
您可以直接在DSW实例中进行模型开发,DSW提供了交互式的开发环境,便于调试代码和查看运行结果。您可以管理第三方库,以满足特定的环境需求。
分布式训练的具体操作,请参见创建训练任务。
模型部署
训练好的模型,您可以将其部署为EAS在线服务,以实现模型推理功能。具体操作,请参见模型部署。
数据传输
步骤四:玩转DSW实例
最佳实践
DSW Gallery提供了丰富的Notebook案例,包括LLM、AIGC前沿领域,覆盖了Llama2、通义千问、Stable Diffusion等热门模型,您可以选择感兴趣的内容,在DSW一键运行,以及二次开发。请参见Notebook Gallery。
高阶功能
除了上述功能之外,DSW还支持以下高阶应用场景:
在DSW利用Tensorboard进行训练可视化,请参见Tensorboard:训练可视化。
在DSW运行R语言,请参见DSW支持R语言。
在DSW使用SQL查询MaxCompute数据源,请参见使用SQL File查询MaxCompute表。
在DSW连接EMR集群,提交Spark作业,请参见DSW连接EMR集群。
更多操作实践,请参见DSW使用案例汇总。