前提条件
需联系Dataphin团队开通非结构化数据功能后,才能使用数据集功能。
使用限制
当前数据集仅支持在Basic项目下创建。
权限说明
除项目管理员和开发者外,当项目中成员拥有数据处理-编辑权限时,支持在本项目中新建、编辑、删除、移动数据集以及获取锁、新建数据集版本;拥有数据处理-执行权限时,支持在本项目中提交数据集。
创建数据集
在Dataphin首页的顶部菜单栏中,选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目。
在左侧导航栏中选择数据处理 > 数据集,在数据集列表中单击
图标,打开新建数据集页签,配置以下参数。参数
描述
基本信息
名称
输入当前数据集的名称,支持任意字符,不超过256个字符。
数据集类型
可选择文件数据集、表数据集、混合数据集,默认为文件数据集。
当选择文件数据集、混合数据集时,需要指定对象存储,当前仅支持使用OSS类型的数据源。
当选择表数据集、混合数据集时,需要配置用于解释数据集的元数据表,当前元数据存储类型默认为PostgreSQL数据源。
内容类型
可选择文本、图片、音频或视频。
目录
选择当前数据集所存放的目录。
若未创建目录,您可以新建文件夹,操作方法如下:
在页面左侧计算任务列表上方单击
图标,打开新建文件夹对话框。在新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。
单击确定。
负责人
选择当前数据集的负责人,可选项中包含当前租户中所有成员,默认为当前登录用户。
主题域(非必选)
选择当前数据集所在的主题域,可选项中包含当前项目所属板块下的所有主题域。
描述(非必填)
输入当前数据集的相关描述,支持任意字符,不超过2000个字符。
版本配置
版本
当前数据集的版本,新建时默认为V1。
描述(非必填)
输入当前数据集版本的相关描述,支持任意字符,不超过2000个字符。
文件存储
说明文件数据集和混合数据集,支持配置文件存储。
数据源
可选择与对象存储类型一致的数据源,即当对象存储类型为OSS时,可选项中包含当前项目下的所有OSS数据源(仅生产数据源)。
生产路径
唯一生产数据源的目录路径。
重要若数据源在Bucket下已限定具体目录,则仅可选择此目录下的子目录。
挂载路径
输入挂载路径,支持英文字母、数字、下划线(_)和短划线(-),固定路径前缀为
/mnt/data/。元数据存储
说明表数据集和混合数据集,支持配置元数据存储。
数据源
可选择与元数据存储类型一致的数据源,即当元数据存储类型为PostgreSQL时,可选项中包含当前项目下的所有PostgreSQL数据源(仅生产数据源)。
生产database/schema
可选项中包含所选生产数据源下的Database/Schema。
存储至
可选择存储至新建表或已有表。
表名称
存储至新建表:输入表名称,支持小写英文字母、数字和下划线(_),且必须以小写英文字母开头,不超过64个字符。
存储至已有表:选择所选数据源Database/Schema下的表,支持按表名称关键字进行搜索。
说明选择已有表后,系统将自动把所选表的字段添加至表结构的字段列表中,且不支持修改字段名称、字段类型和字段描述、不支持设置或取消主键。同时,不支持以从表引入、编辑DDL、添加字段的方式填写表结构。您可单击重新加载表结构,重新读取完整表结构。
表结构
支持从表引入、编辑DDL、添加字段三种方式填写表结构。
从表引入:单击从表引入,在添加字段 从表引入对话框中,选择Schema和来源表后,在下方字段列表中选择多个字段后单击添加。
其中Schema,可选择所选数据源下的Schema,如果不选则默认为数据源中配置的Schema。
编辑DDL:单击编辑DDL,编辑DDL对话框中展示当前表单字段的DDL语句,您可在此基础上进行编辑。
添加字段:单击添加字段,在表结构中新增一行空白字段,您需自行配置。
以任意方式完成字段添加后,您可对字段名称、字段类型、是否主键、是否URL以及字段说明进行配置。
字段名称:仅支持小写英文字母、数字和下划线(_),且必须以小写英文字母开头,不超过64个字符。
字段类型:文本、数值、日期时间、boolean、json、向量及其他类型。
当字段类型为向量-vector时,可单击向量配置,为当前字段进行模型和索引配置。
Embedding模型、输出维度:可选择智能应用管理 > 模型配置中模型类型包含向量且已启用的模型。输出维度根据所选模型下拉选择。
创建索引:是否创建索引,默认选择为是,若选择否,则不支持配置以下参数。
索引类型:可选择IVFFlat或HNSW。
相似度类型:可选择COSINE(余弦)、L2(欧式距离)或IP(内积)。
M:输入每层邻居数,默认值为16,对于高精度场景,建议配置为24~32。仅当索引类型为HNSW时,支持填写此项。
ef_construction:输入构建时探索数,默认值为200,对于大数据集(大于等于100万),建议配置为300~400。仅当索引类型为HNSW时,支持填写此项。
lists:输入聚类桶数,默认值为100,建议您根据数据量调整,通常为数据量的平方根。仅当索引类型为IVFFlat时,支持填写此项。
主键:仅数值类型和文本类型的字段支持设为主键,整个表中仅支持设置一个单字段为主键。
是否URL:仅文本类型字段可设置为URL。
字段说明(非必填):输入对当前字段的相关说明,支持任意字符,不超过1024个字符。
完成配置后,单击提交。
提交时,系统将自动执行对象检查和权限检查,您可在提交详情对话框中查看详情。
对象检查将检查数据源是否存在、文件存储路径是否存在以及元数据存储至所选表的表是否存在,若其中有一项不存在则提交失败。
权限检查将检查是否拥有所选数据源的执行权限,若无权限则提交失败。
管理数据集
在Dataphin首页的顶部菜单栏中,选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目。
在左侧导航栏中选择数据处理 > 数据集,在数据集列表单击目标数据集,可查看该数据集的详细信息,若数据集包含多个版本,您可单击不同版本页签查看各版本信息。数据集支持的其他操作如下。
操作
说明
编辑数据集基本信息
单击数据集页签顶部菜单栏中的编辑,编辑其基本信息,不支持修改数据集类型、对象存储类型、元数据存储类型、内容类型和负责人,其他可修改参数说明同新建操作。

编辑数据集版本
在数据集页签的数据集版本中单击编辑,可编辑对应版本的描述和挂载路径。

新建数据集版本
单击数据集页签下的新建数据集版本,可选择基于最新版本新建或新建空白版本,各参数说明同新建操作。
删除版本
当数据集存储多个版本时,支持删除版本,但至少需保留一个版本。若目标版本存在对象引用时,则不支持删除。