数据导入与管理

更新时间:
复制为 MD 格式

一、功能概述

「数据管理」是 CleverSee-开析 平台的核心功能模块之一,帮助您轻松导入和管理业务数据。通过该功能,您可以创建不同类型的数据集(图片数据集、音视频数据集、文档数据集),并将其关联到具体应用中使用。

本教程将以 创建图片数据集 为例,带您完整走通从数据集创建到数据入库的全流程。


二、进入数据管理页面

登录 CleverSee 平台后,在左侧导航栏中点击「数据管理」,即可进入数据管理列表页。

image.jpeg

在列表页中,您可以看到:

  • 数据集筛选栏:支持按「全部」「图片数据集」「音视频数据集」「文档数据集」筛选

  • 数据集列表:展示名称、ID、关联应用、创建时间、更新时间、数据类型、状态、已入库数量等信息

  • 搜索框:支持通过数据集名称或 ID 搜索

  • 创建按钮:右上角的「+ 创建数据集」按钮

筛选数据集类型

顶部标签可快速筛选不同类型的数据集。例如点击「图片数据集」,将只显示图片类型的数据集:

image.jpeg


三、创建数据集

步骤 1:选择数据集类型

点击右上角「+ 创建数据集」按钮,系统会弹出类型选择对话框:

image.jpeg

目前支持三种数据集类型:

类型

适用场景

图片数据集

适用于图片搜索和问答场景

音视频数据集

适用于音/视频搜索或问答场景

文档数据集

适用于文档知识问答场景

选择目标类型后,点击「去创建」进入创建流程。


步骤 2:命名与导入

进入创建页面后,您需要完成以下配置:

2.1 填写基本信息

  • 数据集名称:输入一个便于识别的名称(如"图片数据集 – 素材照片")

  • 描述(可选):输入数据集描述,最多100字(如"AI图片素材")

image.jpeg

2.2 选择导入方式

系统提供两种导入方式:

导入方式

说明

本地上传

支持拖拽/点击上传数据:

  1. 图片类:支持 JPG/PNG/WEBP/JPEG 格式,单文件最大 10MB

  2. 文档类:PDF / DOC / DOCX / PPT / PPTX / MD / HTML / TXT / XLSX / XLS / JPG / JPEG / PNG / WEBP 格式,单文件最大 100MB

  3. 视频类:支持 MP4, AVI, MOV 格式,单文件最大 500MB

  4. 音频类:支持 MP3、AAC、M4A、WAV、FLAC、OGG、OPUS、WMA 格式,单文件最大 500MB

CSV/EXCEL 导入

通过 CSV / XLSX / XLS 文件导入数据(单包不超过 50MB)

文件格式与本地上传一致,支持文件大小上限为:

  1. 图片类:单文件最大 10MB

  2. 文档类:单文件最大 100MB

  3. 视频类:单文件最大4GB

  4. 音频类:单文件最大4GB

注意:若您通过 CSV/EXCEL 导入数据,则表中必须有一列为 图片/音视频 URL、且 URL 需可公网访问,表格中其他列为您的业务字段、无特殊要求。

示例表格:

截屏2026-06-04 16

本教程选择「CSV/EXCEL 导入」方式:

image.jpeg

2.3 配置数据集主键

CSV/EXCEL 导入时,选择数据集主键的获取方式:

  • 系统生成:系统自动为您数据集生成主键字段。

  • 用户自定义:若您 CSV/EXCEL 表格中,已有某字段可作为主键。请您选择「用户自定义」,并在后续 步骤 3「下一步:Schema 配置」页面中指定主键字段。

2.4 上传数据文件

点击上传区域,选择本地的 CSV/XLSX/XLS 文件进行上传。上传完成后,页面底部会显示已选中的文件信息:

image.jpeg

文件上传成功后,点击右下角「下一步:Schema配置」进入第二步:

image.jpeg


步骤 3:Schema 配置

系统会根据您上传的文件表头自动解析字段,进入 Schema 配置页面:

image.jpeg

该页面分为左右两部分:

  • 左侧 - 数据字段配置

    • 配置每个字段的名称、数据类型

    • 字段属性

      • 指定某一字段为“图片链接”,系统会对该字段进行图片理解、图片索引

      • 指定某一字段为“名称”,将用于在「数据详情」页面中快速搜索查找

    • 字段含义:对该字段的业务含义解释,非必填

    • 是否用于检索:自动为您勾选,可手动调整。此配置决定将对哪些字段建立索引,从而平衡索引成本和效果

    • 是否用于过滤:建议全部勾选。此配置,将影响「应用配置」中,可以对哪些字段添加“提降权”规则、“过滤”规则

  • 右侧 - 数据预览:实时预览数据样本,方便您确认字段配置是否正确

3.1 配置字段属性

对关键字段设置合适的「字段属性」:

image.jpeg

常用字段属性说明:

字段属性

说明

图片/音视频链接

标记包含图片/音视频 URL 的字段(必选,图片/音视频数据集必须有一列图片/音视频URL)

名称

标记数据条目的标题/名称字段,将用于在「数据详情」页面中搜索定位

3.2 填写字段含义

为字段添加「字段含义」描述,帮助系统和其他用户理解该字段的用途:

image.jpeg

例如:

  • image_url → 字段含义:"图片链接url地址"

  • category → 字段含义:"素材类别"

3.3 配置检索与过滤

通过勾选「用于检索」和「用于过滤」选项,控制哪些字段参与搜索和筛选。

建议:图片/音视频链接字段、标题字段、标签字段都建议勾选「用于检索」以获得更好的搜索效果。

3.4 查看采样数据

点击右上角「查看采样数据」,可以切换到完整的表格视图预览数据:

image.jpeg

系统会随机采样 20 条数据供您检查,确认数据格式和字段映射是否正确。

确认无误后,点击右下角「完成配置,保存数据」。

视频标签展示

针对视频题材,区别于用户本身的业务字段,系统会针对数据集内的视频进行智能标签处理,分为视频级标签片段级标签,并且可以用于后续的提降权、过滤等配置。完整字段请至产品内查看。

image.png


四、创建完成

配置保存后,自动返回数据管理列表页:

新创建的数据集会出现在列表最顶部,状态显示为「处理中」(黄色标签),表示数据正在入库处理:

image.jpeg

提示:数据处理时间取决于数据量大小,请耐心等待。处理完成后状态会变为「就绪」(绿色标签)。

五、查看数据集详情

在列表页点击数据集右侧的「查看」按钮,进入数据集详情页面。

5.1 数据配置

展示数据集的 Schema 配置信息,包括字段名称、字段类型、字段含义、是否用于检索和过滤:

image.png

详情页顶部展示数据集基本信息:

  • 数据集名称、ID

  • 数据类型(图片数据)

  • 数据量(处理中时显示为0条)

  • 更新时间(Schema 最后一次变动时间)

  • 描述信息

5.2 数据详情

切换到「数据详情」,可以查看每条数据的具体内容,包括处理状态、原始URL、图片预览、各字段值等:

5.2.1 图片类数据详情

image.jpeg

在数据详情页中,您可以:

  • 查看每条数据的处理状态

  • 预览图片缩略图

  • 查看所有字段的具体值

  • 通过搜索框精确查找特定数据(支持通过 id、url、“名称”字段,进行精准匹配)

  • 使用分页浏览最近 2000 条数据,更早期的数据不会展示在页面,但可通过搜索框查找(本示例共200条)

5.2.2 音视频类数据详情

视频类数据详情中,会出现以下AI生成的关于完整视频的视频级标签,可供后续配置提降权策略、过滤策略,或直接导出使用。字段包括视频类型、视频主题、全局摘要、全局关键词这四种,字段值仅供参考。

image.png

点击预览视频详情,可以播放已上传的视频,并支持查看视频的语音转录以及智能大纲。如需导出视频的语音转录/智能大纲,可以至视频问答应用-模板型内选择对应模板并导出。

image.png

5.3 操作记录

切换到「操作记录」,可以查看该数据集的所有操作历史,包括数据导入的详细结果:

image.png

操作记录中展示了:

  • 操作时间:每次操作的具体时间

  • 操作类型:如「本地上传数据」「新建数据集」「数据集 Schema 更新」

  • 状态:操作是否成功(绿色「成功」标签)

  • 导入总量:本次导入的数据条数

  • 成功新增 / 成功更新 / 异常:详细的数据处理统计

示例:上图中显示导入总量 200 条,成功新增 200 条,0 条更新,0 条异常,说明数据已全部正确入库。

5.4 数据详情(导入完成后)

当数据处理完毕后,再次查看「数据详情」,所有数据的处理状态将从「处理中」变为「完成」(绿色标签),图片缩略图也会正确加载显示:

image.png

此时您可以确认:

  • 所有数据条目状态均为「完成」

  • 图片缩略图正常加载显示

  • 各字段数据内容正确展示

  • 数据总量与导入文件一致

5.5 API 监控

  • API 日志下载:下载 通过 API 向该数据集导入数据的日志,支持导出近 24 小时内日志。


六、常见问题

Q:数据集创建后多久可以使用?

A:取决于数据量大小。可在「数据详情」页面内看到每条数据的处理状态。

Q:图片 URL 有什么要求?

A:必须是可公网访问的完整 URL,支持 http/https 协议。

Q:可以修改已创建的数据集 Schema 吗?

A:数据集创建后,Schema 配置暂不可修改。如需调整,请创建新的数据集。

Q:如何向已有数据集追加数据?

A:进入数据集详情页,点击右上角「+ 导入数据」按钮即可追加数据。


如有更多问题,请参阅平台帮助文档或联系技术支持。