文档

使用流程

更新时间:

本文为您介绍DSW完整的使用流程。

步骤一:准备工作

  1. 准备资源组

    创建DSW实例前,您需要准备好训练任务所需的通用计算资源(包括公共资源组和专有资源组)或灵骏智算资源(包括专有资源组)。

  2. (可选)准备数据集

    创建DSW实例时,实例的默认存储方式如下:

    • 使用公共资源组创建DSW实例时,PAI将赠送免费云盘,默认云盘存储空间有限。实例停止不会影响云盘,在删除实例后,云盘数据将被清空。

    • 使用专有资源组创建DSW实例时,DSW实例使用自带的系统盘作为临时存储。在停止或删除实例后,临时存储将被清空。

    您可以通过挂载数据集来扩展实例的存储空间,实现数据持久化存储。目前支持挂载OSS、NAS和CPFS类型的数据集,如何创建数据集,请参见创建及管理数据集

  3. (可选)准备镜像

    创建DSW实例前,您需要准备好需要安装的镜像,DSW实例将基于所选择的镜像来构建运行环境。目前支持选择以下类型的镜像:

    • 官方镜像

      DSW预置了多种类型的官方镜像,例如pytorch、tensorflow、modelscope等。每种镜像均提供了不同的版本,以满足您对特定框架版本的需求,从而方便您进行模型开发、训练和部署等工作。

    • 自定义镜像

      您也可以使用已创建的自定义镜像来满足特定场景下的开发需求。关于如何创建自定义镜像,请参见自定义镜像

步骤二:创建及访问DSW实例

  1. 创建实例

    完成上述准备工作后,您可以创建DSW实例,请参见创建DSW实例

  2. 管理实例

    实例创建完成之后,您可以管理实例的生命周期,对实例进行启动、停止和删除等操作。您也可以更换实例配置,如实例规格、镜像和数据集等。具体方法请参见 管理DSW实例

    为了优化节约成本,建议您配置好闲置关机和定时关机策略。对于免费试用计划的实例,DSW实例自动开启闲置关机;通用场景下,用户管理员可以在工作空间调度中心配置资源回收策略,请参见工作空间调度中心。此外,建议您在不需要使用DSW实例时,及时停止实例。需要注意的是,临时存储的数据在停止实例后将被清空,请及时导出数据。

  3. 访问实例

    推荐您通过控制台打开DSW实例,DSW提供了丰富的IDE环境,包含Notebook、WebIDE和Terminal工具,并且可以查看资源水位等,使用方法请参见访问DSW实例。您也可以通过SSH远程连接DSW实例,具体操作请参见连接DSW实例

步骤三:使用DSW实例

  1. 模型开发与训练

    您可以直接在DSW实例页面进行模型开发,DSW实例提供了交互式的开发环境,便于调试代码和查看运行结果。您可以管理第三方库,以满足特定的环境需求。

    分布式训练的具体操作,请参见创建训练任务

  2. 模型部署

    您可以将训练好的模型部署为EAS在线服务,以实现模型推理功能。具体操作,请参见模型部署

  3. 数据传输

    除了挂载数据集之外,DSW在使用过程中还支持接入多种数据源,包括OSS和MaxCompute。您可以将开发所需的数据文件从不同的数据源导入到DSW实例中,并将处理后的数据导出到指定的数据源,请参见读写数据

    此外,DSW实例还提供了数据上传和下载功能,以及Notebook的导出和分享功能,请参见文件传输与处理

步骤四:玩转DSW实例

  1. 最佳实践

    DSW Gallery提供了丰富的Notebook案例,包括LLM、AIGC前沿领域,覆盖了Llama2、通义千问、Stable Diffusion等热门模型,您可以选择感兴趣的内容,在DSW一键直接运行,以及进行二次开发。请参见Notebook Gallery

  2. 高阶功能

    除了上述功能之外,DSW还支持以下高阶应用场景:

更多操作实践,请参见DSW使用案例汇总