PAI支持通过新建数据集和导入数据集文件的方式注册数据集,并通过manifest清单文件管理所有数据集。

通过新建数据集的方式注册数据集

如果原始数据(图像、文本、视频、语音等)存储在OSS,可以通过新建数据集的方式注册数据集。系统会遍历指定目录下的同类型文件,并将生成的清单文件存储在指定的OSS目录。

  1. 进入注册数据集页面。
    1. 登录PAI控制台
    2. 在PAI控制台首页,选择数据准备 > 数据集管理
    3. 数据集管理页面,单击注册数据集
  2. 注册数据集页面,配置参数。
    参数 描述
    数据集名称 长度为1~24个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    注册方式 选择注册方式新建数据集
    存储类型 系统默认OSS,不支持修改。
    选择存储路径 选择存储路径配置为一个存储原始数据的OSS文件夹,如下图所示。图片路径
    数据类型 系统默认图片,不支持修改。
    数据集关键词 便于管理数据集,每个数据集最多添加10个关键词。每个关键词长度为1~10个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
  3. 单击提交,生成的清单文件内容如下。
    {"data":{"picUrl":"oss://****/pics/fruit/apple-1.jpg"}}
    {"data":{"picUrl":"oss://****/pics/fruit/apple-10.jpg"}}
    {"data":{"picUrl":"oss://****/pics/fruit/apple-11.jpg"}}
    ...

通过导入数据集文件的方式注册数据集

如果本地有CSV文件manifest文件,可以通过导入数据集文件的方式注册数据集。系统将CSV文件转换为manifest文件存储。

  1. 进入注册数据集页面。
    1. 登录PAI控制台
    2. 在PAI控制台首页,选择数据准备 > 数据集管理
    3. 数据集管理页面,单击注册数据集
  2. 注册数据集页面,配置参数。
    参数 描述
    数据集名称 长度为1~24个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    注册方式 选择注册方式导入数据集文件
    存储类型 系统默认OSS,不支持修改。
    选择存储路径 选择OSS的存储目录。
    数据类型 将本地CSV或manifest文件拖拽至数据类型下的上传区域。
    说明 如果导入的数据集用于标注任务,则数据集的字段名称需要符合标注模板要求,详情请参见标注模板
    数据集关键词 便于管理数据集,每个数据集最多添加10个关键词。每个关键词长度为1~10个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
  3. 单击提交