数据标注

更新时间:
复制 MD 格式

数据标注功能允许用户为数据集中的数据添加结构化标签,支持多种标注控件类型,帮助标注人员高效完成数据标注任务。本文介绍标注功能的完整操作流程。

步骤一:绑定标注模版

在数据中心选择数据集,进入标注 Tab 创建标注模版。

  • 进入目标数据集的详情页面。

  • 切换到标注 Tab。

  • 点击创建标注模版按钮,进入模版绑定页面。

步骤二:配置标注任务

设置字段来源、标注控件和标注说明。

字段来源

字段来源定义标注工作台展示哪些数据列。

  • 添加字段:点击「+ 添加字段」按钮,新增一条展示字段。

  • 选择数据列:每条字段需要选择一个数据集列进行绑定,支持从下拉列表中选择。对于 JSON 类型的列,系统会自动展开两层子路径供选择(如 metadata.user.name)。

  • 设置展示类型:每条字段可设置展示类型为文字图片JSON,系统会根据数据格式自动推断默认类型。

  • 填写字段描述:为每条字段添加描述文字,帮助标注人员理解该字段的含义。

  • 拖拽排序:通过拖拽手柄调整字段的展示顺序。

  • 删除字段:点击字段右侧的删除按钮移除该字段。

提示:如果未配置任何字段来源,标注界面将默认展示数据集中的所有字段。也可以使用「选中所有字段」一键绑定所有顶层字段。

标注控件

标注控件定义了标注工作台右侧的标注操作区域。点击「+ 添加控件类型」可新增控件,系统支持以下五种控件类型:

控件类型

英文名

说明

文本

TextArea

自由文本输入,适用于开放式标注,如摘要、评论、修正文本等

选择

Choices

单选或多选,适用于从预设选项中选择一个或多个答案

评分

Rating

数字评分,可配置评分范围(如 1~5),适用于质量打分、满意度评估等

布尔

Boolean

二选一(是/否),适用于二元判断,如是否合格、是否相关等

分类

Taxonomy

层级分类标签,支持单选或多选模式,适用于多级分类体系标注

每种控件都可以进行以下配置:

  • 控件标题:设置控件上方显示的标题文字,帮助标注人员理解该控件的用途。

  • 选项列表(选择、分类控件):添加、编辑和删除选项,定义标注人员可选择的答案。

  • 评分范围(评分控件):设置最小值和最大值,定义评分的取值范围。

  • 多选模式(分类控件):通过勾选「多选」复选框切换单选/多选模式。

提示:一个标注任务中可以同时添加多种控件类型,实现多维度标注。例如同时使用「评分」评价质量和「文本」记录备注。

标注说明

在配置区底部的标注说明区域输入标注指南或规范说明,帮助标注人员更好地理解标注任务的要求和标准。

预览与保存

  • 右侧预览:配置区的所有变更会实时反映在预览区,在预览区查看标注界面的最终效果。

  • 保存配置:点击「开始标注」按钮将标注配置保存到当前数据集。

步骤三:开始标注

配置保存成功后,点击「开始标注」按钮,即可进入标注工作台,逐条完成数据标注。

进入标注的两种方式

方式

说明

标注 Tab

在数据集详情页面切换到标注 Tab,直接进入标注工作台

数据列表按钮

在数据集列表页面点击某条数据行的标注按钮,通过侧滑面板快速打开标注工作台

标注工作台布局

标注工作台采用左右分栏布局:

区域

位置

说明

数据展示区

左侧

展示当前数据条目的绑定字段内容,按照配置中定义的字段来源和展示类型渲染

标注操作区

右侧

展示所有标注控件,标注人员在此区域完成标注操作

两栏之间支持拖拽分割线调整宽度比例,方便查看长文本或复杂数据。

数据展示区顶部显示当前数据的 ID 和标注状态(已标注 / 未标注)。

数据浏览与筛选

标注工作台顶部提供数据筛选和导航功能:

  • 全部 / 未标注 切换:右上角可以切换查看「全部」数据或仅查看「未标注」数据,每个选项旁显示对应的数据条数。

  • 进度条:顶部显示标注进度条和已标注数量

  • 上一条 / 下一条:通过底部按钮在数据条目间顺序浏览。

  • 跳过:点击「跳过」按钮可以暂时跳过当前数据,继续标注后续数据。

历史标注

对于已经标注过的数据:

  • 系统会自动加载历史标注结果并填充到控件中。

  • 点击「历史标注」按钮可以切换显示/隐藏历史标注数据。

  • 如果标注模版发生变更导致不兼容,历史标注将显示「模版已变更」提示,且无法加载旧数据。

步骤四:标注操作

标注流程

  1. 在左侧查看当前数据的展示内容。

  2. 在右侧使用各控件完成标注:

    • 文本控件:在文本框中输入标注内容。

    • 选择控件:点击一个或多个预设选项。

    • 评分控件:点击星星或数字选择评分值。

    • 布尔控件:选择「是」或「否」。

    • 分类控件:从层级分类树中选择一个或多个分类标签。

  3. 确认标注内容无误后,点击提交按钮保存标注结果。

  4. 系统自动跳转到下一条未标注数据。

提交与完成

  • 提交标注后,系统会将标注结果保存到当前数据条目。

  • 提交最后一条数据后,系统将显示完成提示,展示总数据量和已标注数量。

重新配置

在标注工作台页面,点击顶部模版名称旁的「重新绑定」按钮,对已绑定的标注模版进行更换。

使用建议

标注任务设计建议

建议

说明

字段精简

仅绑定标注所需的数据列,避免信息过载影响标注效率

字段描述清晰

为每个字段添加明确的描述,减少标注人员的理解成本

控件匹配场景

根据标注目标选择合适的控件类型,优先使用选择类控件提高一致性

标注说明详尽

填写完整的标注说明,包含标注标准、边界情况和示例

先预览后标注

利用右侧预览确认配置效果,再开始正式标注

常见问题

问题

解决方法

历史标注无法加载

可能是模版变更导致不兼容,需要使用当前模版重新标注

提交时提示"请先完成标注"

确保至少操作了一个标注控件后再提交

数据集暂无数据

请先在数据集详情页添加数据后再进行标注