全部产品
云市场

注册数据集

更新时间:2020-03-12 17:48:44

用户可以将标注/未标注的数据通过注册的方式在PAI数据集管理模块中进行统一的管理。PAI都会通过.manifest后缀的清单文件对所有数据集进行管理和流转。

清单文件数据结构

每行描述一条数据,每行内容都是json结构。

注册数据集

在PAI控制台数据准备-数据集列表页面上点击“注册数据集”按钮进入如下页面注册数据集

  • 注册方式有两种,新建数据集/导入数据集,后面会分别介绍。
  • 数据集关键词方便用户在有很多数据集的情况下快速筛选查找,每个数据集最多添加10个关键词

新建数据集

对于原始数据(图像、文本、视频、语音等等)保存在OSS中的用户来说,可以在PAI上选择新建数据集功能,系统会根据用户在OSS指定路径中的同一类型的文件进行遍历后生成清单文件,并将该清单文件保存在用户指定的在OSS目录位置。

  • 选择存储路径:请选择一个已经存好源数据的OSS文件夹,以数据类型为图片为例,选到如图路径即可OSS1
  • 点击提交后,生成的清单文件内容为
    1. {"data":{"picUrl":"oss://********/pics/fruit/apple-1.jpg"}}
    2. {"data":{"picUrl":"oss://********/pics/fruit/apple-10.jpg"}}
    3. {"data":{"picUrl":"oss://********/pics/fruit/apple-11.jpg"}}
    4. ......

导入数据集

对于本地已有.manifest或者.csv的用户来说,可以选择导入数据集功能。

  • .manifest会直接存储
  • .csv系统会转换为.manifest存储

如果采用导入数据集并后续用于标注任务,请注意数据集中的字段名称要符合官方模板的要求

.csv到.manifest的转换示例为:原数据:csv示例导入后的数据:转换后的manifest文件