采集与管理数据

更新时间:
复制 MD 格式

本文介绍如何在具身智能平台上采集机器人操作数据、注册和管理数据集、进行数据审核和格式转换。

创建采集任务

  1. 登录具身智能平台。

  2. 在左侧导航栏中,展开数据管理,单击数据采集

  3. 单击创建任务

  4. 在右侧面板中配置以下参数:

    基本信息

    参数

    是否必填

    说明

    任务名称

    必填

    采集任务的名称。

    数据集名称

    必填

    采集数据存储的数据集名称,例如 my_robot_task_001

    数据集类型

    必填

    默认 LeRobot。

    设备

    必填

    从下拉列表中选择已注册的在线设备。

    分配用户

    必填

    选择执行采集的采集员。

    任务详情

    参数

    是否必填

    说明

    任务目标

    选填

    采集任务的目标描述。

    描述

    选填

    任务的详细说明。

    操作步骤

    选填

    操作指引。

    XR 模式

    选填

    从下拉列表中选择 XR 采集模式。

    其他设置

    参数

    是否必填

    说明

    状态

    默认为"采集中"。

    优先级

    默认为"中"。

    标签

    选填

    以 Key-Value 格式添加自定义标签,用于后续筛选。

    仓库 ID

    默认 lerobot/pusht

    预计时长

    选填

    预计采集时长。

    预期采集数量

    选填

    预期采集的 episode 数量。

    数据集存储路径

    选填

    自定义存储路径。

  5. 单击确定

执行数据采集

采集任务创建后,设备端通过 adb-robot-client 执行采集流程。整个采集过程分为 5 步:

  1. 建立连接:平台通过 MQTT 向设备发送连接命令。

  2. 确认连接:设备确认连接建立。

  3. 开始录制:平台下发录制命令,设备开始采集操作数据(关节角度、力矩、摄像头画面等)。

  4. 采集循环:单击结束录制完成当前 episode,再单击开始录制进入下一轮采集。

  5. 断开连接:采集完成后断开 MQTT 连接。

说明

执行数据采集需要在线设备。设备接入方法请参见管理设备与机器人接入

上传数据

采集完成后,可将数据上传到平台:

  1. 在左侧导航栏中,单击数据上传

  2. 在上传列表中查看各任务的上传进度和状态。

上传过程支持按 episode 审核状态筛选,并提供实时进度查看。

注册数据集

除采集数据外,还可以将已有数据集注册到平台。

  1. 在左侧导航栏中,单击数据集

  2. 自定义数据集 Tab 中,单击数据集注册

  3. 配置以下参数:

    基本信息

    参数

    是否必填

    说明

    数据集名称

    必填

    数据集名称。

    数据格式

    必填

    从下拉列表中选择:LeRobot 2.x、LeRobot 3.x、Unitree、EgoVerse Zarr、HDF5 或其他。

    标签

    选填

    以 Key-Value 格式添加标签。

    数据来源

    通过 Tab 切换选择数据来源,平台支持以下来源:

    来源

    说明

    本地文件

    拖拽或选择本地文件上传。

    OSS

    从对象存储 OSS 导入。需填写 OSS Endpoint、Bucket、数据路径、AccessKey ID 和 AccessKey Secret。详见使用 AnalyticDB 湖存储 OSS 上传数据

    开发工作空间

    从运行中的开发机工作目录导入。选择开发环境并指定数据路径(默认 /data/)。

    Hugging Face

    即将推出。

    魔搭 ModelScope

    即将推出。

  4. 单击确定

    数据集页面按 3 个 Tab 组织:自定义数据集(手动注册的数据集)、采集数据集(采集任务产生的数据集)和标注数据集(标注任务产生的数据集)。

审核数据

数据审核用于评估采集数据的质量,支持按 episode 逐条审核。

  1. 在左侧导航栏中,单击数据审核

  2. 在审核任务列表中,单击目标任务名称进入详情页。

    Dataset Viewer

    详情页提供 Dataset Viewer 功能,展示数据集元信息(总 episode 数、数据格式、总帧数和总时长)以及帧级数据表格,包括所有摄像头视角、动作(action)和状态(state)。

    Episode 审核

    Episodes Tab 中以卡片形式展示每个 episode 的缩略图和时长。单击操作按钮可执行审核:

    参数

    说明

    审核结果

    通过或不通过。

    评分

    1-5 星评级。

    审核备注

    选填,补充说明。

格式转换

当需要将数据集从一种格式转换为另一种格式时(例如将 EgoVerse Zarr 格式转换为 LeRobot v2 格式),可使用数据处理功能。格式转换基于 Ray 分布式引擎,支持大规模数据集的高效转换。

  1. 在左侧导航栏中,单击数据处理

  2. 格式转换 Tab 中,单击创建格式转换任务

  3. 配置以下参数:

    参数

    是否必填

    说明

    源数据集

    必填

    选择待转换的数据集。

    输出数据集

    必填

    转换后数据集的名称。

    转换模式

    标准转换(默认)。自定义转换即将推出。

    格式类型

    必填

    目标格式,例如 lerobot_v2

    当前支持以下转换方向:

    • Unitree → LeRobot v2

    • LeRobot v2 → LeRobot v3

    • EgoVerse Zarr → LeRobot v2

    展开高级配置可设置以下参数:

    参数

    说明

    输出模式

    video(默认)或 image。

    Robot 类型

    宇树 G1 的四种配置之一(Inspire / Dex1 / Dex3 / Brainco)。

    执行模式

    默认 ray(Ray 分布式执行)。

  4. 单击确定

转换任务提交后,可通过 Ray Dashboard 监控任务执行进度。

相关文档