数据集管理

更新时间:

数据集模块用来管理用户存储与组织样本及标注数据的数据组织单位数据集,其主要功能分为三部分:

  • 新建数据集

  • 数据集列表

  • 数据集详情

注意:用户必须选择对应的工作区之后才能进入数据集相关的功能,否则会提示权限不足。

新建数据集

用户需要新建数据集,来对模型训练需要使用的大量样本数据进行组织与管理;

点击菜单栏左侧【新建数据集】或者【数据集列表】的新建按钮来实现

image.png

数据集名称

数据集名称30个字符以内,最好能体现数据集内容的特点,且避免重复

数据集限制条件

只支持扩展名为.zip的文件;

zip文件大小不能超过2GB,如果超出请分包上传;

图片个数保持在2000张以内,超出只保留前两千张;

图像名称只支持字母、数字、下划线、同名图像将被覆盖;

上传与重置

填写了数据集名称,并选择了合规的数据集内容文件后,点击上传按钮完成数据集创建,页面将跳转到数据集列表页面,并在数据集列表里显示新创建的数据集。可以通过点击数据集名称进入数据集详情或直接在列表中通过快捷方式操作,进一步设置完善数据集。点击重置按钮将清除已输入的数据集名称及选择的数据集内容文件。

数据集列表

对新建的数据集进行管理,可以对已经建立好的数据集进行

【新增】:同上新建训练集

【删除】:对不需要的数据集合进行删除

【筛选】:通过数据集包含的标签进行数据集的筛选,方便用户查找相关指标的数据集,默认显示当前工作区的前十个标签

【上传】:已经标注好的数据集可以对其进行二次补充上传,保证数据集的完整性

【标注】:对用作训练的样本数据进行标注,确保数据的有效性

【导出】:已经标注好的数据集支持导出功能,方便用户使用

【复制】:可以把当前相关的数据集复制到不同的工作区,方便用户对数据的多样性操作

【查看异常日志】:对模型上传数据集过程中存在的异常情况有全量的判断,方便追踪

未标题-1.png

数据集详情

【基本信息】:数据集名称、创建时间、标签、最后修改时间

image.png

【上传】:选择不同的数据包形式上传数据集,

对当前数据集的样本进行上传添加。

只支持文件拓展名为 .zip文件。

zip文件大小不能超出2G,超出需要分包上传。

zip文件中图片数量不能超出2000张。

图像名称只支持字母 、数字 、下划线。

同名样本图片将被覆盖。

目前支持jpg,png,bmp,jpeg格式图片。

image.png

【浏览】:

(1)标注导出按钮:(同顶部标注导出按钮功能) 以json格式的文件导出这个数据集中所有已标注样本的标注数据。

(2)样本分类信息:数据集中全部样本数,已标注样本数与未标注样本数统计,点击具体三个标签行右边的样本预览区域中的样本会随之进行筛选。

(3)标签标注信息:数据集中每个标签的标注数,点击标签行右边的样本预览区域中的样本会随之进行筛选。

(4)样本缩略图展示:样本缩略图显示,每个样本底端显示文件名。

image.png