数据集

更新时间:
复制为 MD 格式

前提条件

需联系Dataphin团队开通非结构化数据功能后,才能使用数据集功能。

使用限制

当前数据集仅支持在Basic项目下创建。

权限说明

项目管理员开发者外,当项目中成员拥有数据处理-编辑权限时,支持在本项目中新建、编辑、删除、移动数据集以及获取锁、新建数据集版本;拥有数据处理-执行权限时,支持在本项目中提交数据集。

创建数据集

  1. Dataphin首页的顶部菜单栏中,选择研发 > 数据研发

  2. 开发页面的顶部菜单栏选择项目

  3. 在左侧导航栏中选择数据处理 > 数据集,在数据集列表中单击image图标,打开新建数据集页签,配置以下参数。

    参数

    描述

    基本信息

    名称

    输入当前数据集的名称,支持任意字符,不超过256个字符。

    数据集类型

    可选择文件数据集表数据集混合数据集,默认为文件数据集。

    • 当选择文件数据集混合数据集时,需要指定对象存储,当前仅支持使用OSS类型的数据源。

    • 当选择表数据集混合数据集时,需要配置用于解释数据集的元数据表,当前元数据存储类型默认为PostgreSQL数据源。

    内容类型

    可选择文本图片音频视频

    目录

    选择当前数据集所存放的目录。

    若未创建目录,您可以新建文件夹,操作方法如下:

    1. 在页面左侧计算任务列表上方单击image图标,打开新建文件夹对话框。

    2. 新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。

    3. 单击确定

    负责人

    选择当前数据集的负责人,可选项中包含当前租户中所有成员,默认为当前登录用户。

    主题域(非必选)

    选择当前数据集所在的主题域,可选项中包含当前项目所属板块下的所有主题域。

    描述(非必填)

    输入当前数据集的相关描述,支持任意字符,不超过2000个字符。

    版本配置

    版本

    当前数据集的版本,新建时默认为V1。

    描述(非必填)

    输入当前数据集版本的相关描述,支持任意字符,不超过2000个字符。

    文件存储

    说明

    文件数据集混合数据集,支持配置文件存储。

    数据源

    可选择与对象存储类型一致的数据源,即当对象存储类型为OSS时,可选项中包含当前项目下的所有OSS数据源(仅生产数据源)。

    生产路径

    唯一生产数据源的目录路径。

    重要

    若数据源在Bucket下已限定具体目录,则仅可选择此目录下的子目录。

    挂载路径

    输入挂载路径,支持英文字母、数字、下划线(_)和短划线(-),固定路径前缀为/mnt/data/

    元数据存储

    说明

    表数据集混合数据集,支持配置元数据存储。

    数据源

    可选择与元数据存储类型一致的数据源,即当元数据存储类型为PostgreSQL时,可选项中包含当前项目下的所有PostgreSQL数据源(仅生产数据源)。

    生产database/schema

    可选项中包含所选生产数据源下的Database/Schema。

    存储至

    可选择存储至新建表已有表

    表名称

    • 存储至新建表:输入表名称,支持小写英文字母、数字和下划线(_),且必须以小写英文字母开头,不超过64个字符。

    • 存储至已有表:选择所选数据源Database/Schema下的表,支持按表名称关键字进行搜索。

      说明

      选择已有表后,系统将自动把所选表的字段添加至表结构的字段列表中,且不支持修改字段名称、字段类型和字段描述、不支持设置或取消主键。同时,不支持以从表引入、编辑DDL、添加字段的方式填写表结构。您可单击重新加载表结构,重新读取完整表结构。

    表结构

    支持从表引入编辑DDL添加字段三种方式填写表结构。

    • 从表引入:单击从表引入,在添加字段 从表引入对话框中,选择Schema来源表后,在下方字段列表中选择多个字段后单击添加

      其中Schema,可选择所选数据源下的Schema,如果不选则默认为数据源中配置的Schema。

    • 编辑DDL:单击编辑DDL编辑DDL对话框中展示当前表单字段的DDL语句,您可在此基础上进行编辑。

    • 添加字段:单击添加字段,在表结构中新增一行空白字段,您需自行配置。

    以任意方式完成字段添加后,您可对字段名称字段类型、是否主键是否URL以及字段说明进行配置。

    • 字段名称:仅支持小写英文字母、数字和下划线(_),且必须以小写英文字母开头,不超过64个字符。

    • 字段类型文本数值日期时间booleanjson向量其他类型。

      当字段类型为向量-vector时,可单击向量配置,为当前字段进行模型和索引配置。

      • Embedding模型输出维度:可选择智能应用管理 > 模型配置中模型类型包含向量已启用的模型。输出维度根据所选模型下拉选择。

      • 创建索引:是否创建索引,默认选择为,若选择,则不支持配置以下参数。

      • 索引类型:可选择IVFFlatHNSW

      • 相似度类型:可选择COSINE(余弦)L2(欧式距离)IP(内积)

      • M:输入每层邻居数,默认值为16,对于高精度场景,建议配置为24~32。仅当索引类型为HNSW时,支持填写此项。

      • ef_construction:输入构建时探索数,默认值为200,对于大数据集(大于等于100万),建议配置为300~400。仅当索引类型为HNSW时,支持填写此项。

      • lists:输入聚类桶数,默认值为100,建议您根据数据量调整,通常为数据量的平方根。仅当索引类型为IVFFlat时,支持填写此项。

    • 主键:仅数值类型文本类型的字段支持设为主键,整个表中仅支持设置一个单字段为主键。

    • 是否URL:仅文本类型字段可设置为URL。

    • 字段说明(非必填):输入对当前字段的相关说明,支持任意字符,不超过1024个字符。

  4. 完成配置后,单击提交

    提交时,系统将自动执行对象检查和权限检查,您可在提交详情对话框中查看详情。

    • 对象检查将检查数据源是否存在、文件存储路径是否存在以及元数据存储至所选表的表是否存在,若其中有一项不存在则提交失败。

    • 权限检查将检查是否拥有所选数据源的执行权限,若无权限则提交失败。

管理数据集

  1. Dataphin首页的顶部菜单栏中,选择研发 > 数据研发

  2. 开发页面的顶部菜单栏选择项目

  3. 在左侧导航栏中选择数据处理 > 数据集,在数据集列表单击目标数据集,可查看该数据集的详细信息,若数据集包含多个版本,您可单击不同版本页签查看各版本信息。数据集支持的其他操作如下。

    操作

    说明

    编辑数据集基本信息

    单击数据集页签顶部菜单栏中的编辑,编辑其基本信息,不支持修改数据集类型、对象存储类型、元数据存储类型、内容类型和负责人,其他可修改参数说明同新建操作。image

    编辑数据集版本

    在数据集页签的数据集版本中单击编辑,可编辑对应版本的描述和挂载路径。image

    新建数据集版本

    单击数据集页签下的新建数据集版本,可选择基于最新版本新建新建空白版本,各参数说明同新建操作。

    删除版本

    当数据集存储多个版本时,支持删除版本,但至少需保留一个版本。若目标版本存在对象引用时,则不支持删除。