为了方便用户在提交任务时指定所需的数据集和代码仓,PAI-DLC支持添加文件系统NAS或对象存储OSS的数据集以及Git代码仓。本文介绍如何在PAI-DLC Dashboard中新建数据集配置及代码配置。

前提条件

如果您使用OSS作为存储系统,请确保已经根据业务需求为服务关联角色授予了OSS访问权限。否则挂载OSS后,进行数据访问时,可能产生I/O错误。关于如何为服务关联角色授予OSS访问权限,请参见为PAI-DLC服务关联角色授权OSS访问权限

使用限制

由于OSS与NAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。

新建数据集配置

  1. 进入PAI-DLC Dashboard。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > 云原生深度学习训练(DLC)
    3. 在PAI-DLC管理控制台页面,找到类型公共资源组的工作集群,单击操作列下的集群控制台
  2. 在左侧导航栏,单击数据集配置
  3. 数据集配置页面,单击新建数据集配置
  4. 新建数据集配置页面,配置如下参数。
    参数 是否必填 描述
    名称 数据名称。
    描述 数据的描述信息,便于区分不同的数据。
    存储系统类型 支持NAS和OSS。
    存储配置 存储系统类型为NAS时,必须配置该参数。

    该参数需要配置为NAS文件系统的ID。您可以登录NAS控制台,在对应的地域,查看NAS文件系统ID。

    说明 关于如何上传数据到NAS,请参见NFS文件系统数据的上传下载
    OSS路径 存储系统类型为OSS时,必须配置该参数。

    该参数需要配置为同地域的OSS Bucket下的某路径。例如,oss://mybucket/path/to/dir

    本地存储目录 挂载数据时,所挂载的文件位置。
  5. 单击提交

新建代码配置

  1. 进入PAI-DLC Dashboard。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > 云原生深度学习训练(DLC)
    3. 在PAI-DLC管理控制台页面,找到类型公共资源组的工作集群,单击操作列下的集群控制台
  2. 在左侧导航栏,单击代码配置
  3. 代码配置页面,单击新建代码配置
  4. 新建代码配置页面,配置如下参数。
    参数 是否必填 描述
    名称 代码仓名称。
    描述 代码仓的描述信息,便于区分不同的代码仓。
    Git地址 代码仓的地址。
    默认分支 代码分支,默认值为master
    Git用户名 如果需要访问私有代码仓,则需要指定该参数。
    代码源访问Token 如果需要访问私有代码仓,则需要指定该参数。GitHub Token的获取方式请参见下方的获取GitHub账号的Token
    本地存储目录 挂载数据时,所挂载的文件位置。
  5. 单击提交

获取GitHub账号的Token

  1. 登录您的GitHub账号
  2. 前往GitHub Developer setting
  3. Personal access tokens页面,单击右上方的Generate new token
  4. Note下方的文本框中输入Token名称,并在Select scopes区域选中权限复选框(建议选中所有权限)。配置Token信息
  5. 单击Generate Token,即可生成Token。
    生成的Token如下图所示。生成的Token