高质量的数据集是高精度模型的基础,也是数据准备环节的核心目标。您可以通过数据集管理模块将存储在OSS的原始数据、本地CSV或.manifest文件数据进行注册,从而统一管理PAI的相关数据,为数据标注及模型训练做准备。本文介绍如何注册数据集及导出数据集。

背景信息

数据集管理是通过.manifest清单文件管理所有数据集。

通过新建数据集的方式注册数据集

如果原始数据(图像、文本、视频、语音等)存储在OSS,可以通过新建数据集的方式注册数据集。系统会遍历指定目录下的同类型文件,并将生成的清单文件存储在指定的OSS目录。

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择AI资产管理 > 数据集管理
  2. 数据集管理页面,单击注册数据集
  3. 注册数据集页面,配置参数。
    参数 描述
    数据集名称 长度为1~30个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    注册方式 选择注册方式新建数据集文件
    数据类型 支持以下数据类型:
    • 图片:支持JPEG、JPG、PNG及WebP格式。
    • 文本:支持CSV和TXT格式,数据集中的每条数据通过换行分隔。
    • 视频:支持MP4、Ogg及WebM格式。
    存储类型 系统默认OSS,不支持修改。如果当前账号未进行OSS授权,则可以单击下方的一键授权进行授权。
    选择存储路径 选择存储路径配置为一个存储原始数据的OSS文件夹,如下图所示。图片路径
    数据集关键词 便于在多个数据集中搜索或归类数据集。每个关键词以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
  4. 单击提交,生成的清单文件内容如下。
    {"data":{"picUrl":"oss://****/pics/fruit/apple-1.jpg"}}
    {"data":{"picUrl":"oss://****/pics/fruit/apple-10.jpg"}}
    {"data":{"picUrl":"oss://****/pics/fruit/apple-11.jpg"}}
    ...

通过导入数据集文件的方式注册数据集

如果本地有CSV文件.manifest文件,可以通过导入数据集文件的方式注册数据集。系统将CSV文件转换为.manifest文件存储。

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择AI资产管理 > 数据集管理
  2. 数据集管理页面,单击注册数据集
  3. 注册数据集页面,配置参数。
    参数 描述
    数据集名称 长度为1~30个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    注册方式 选择注册方式导入数据集文件
    数据类型 支持以下数据类型:
    • 图片:支持JPEG、JPG、PNG及WebP格式。
    • 文本:支持CSV和TXT格式,数据集中的每条数据通过换行分隔。
    • 视频:支持MP4、Ogg及WebM格式。
    存储类型 系统默认OSS,不支持修改。如果当前账号未进行OSS授权,则可以单击下方的一键授权进行授权。
    数据上传 将本地CSV或.manifest文件拖拽至数据上传下的上传区域。
    说明 如果导入的数据集用于标注任务,则数据集的字段名称需要符合标注模板要求,详情请参见 标注模板
    选择存储路径 将上传的文件存储在该路径。
    数据集关键词 便于在多个数据集中搜索或归类数据集。每个关键词以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
  4. 单击提交

导出数据集

对于已经注册的数据集,PAI支持将其以.manifest文件的形式导出至本地,以便应用于其他业务。

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择AI资产管理 > 数据集管理
  2. 数据集管理页面,单击目标数据集操作列下的导出数据集,即可将其导出至本地。