管理数据集

DataWorks的数据集功能可以实现对非结构化数据(如图像、文档)的有效管理控制,并在DataWorks中使用,本文将为您介绍数据集的创建与使用方式。

背景信息

在使用DataWorks进行数据开发的过程中,当您需要读写存储于OSS、NAS中的数据时,可以使用DataWorks的数据集功能。该功能支持您创建和管理数据集及其多个版本,通过数据集版本管理,您能够追踪数据的版本,并在新版本出现问题时迅速切换至旧版本,以确保业务流畅。

注意事项

当前数据集功能为内测版本,具体能力与稳定性需以实际体验为准。

使用限制

  • 数据开发(Data Studio)(新版)支持使用数据集。

  • 在数据开发节点访问数据集时,仅支持使用Serverless资源组

  • 目前仅Shell节点Python节点Notebook开发以及个人开发环境支持使用数据集。

  • 一个数据开发节点最多支持挂载5个数据集,支持存储类型为对象存储(OSS)NFS协议的文件存储(NAS)的数据集。

  • 一个个人开发环境最多支持挂载5个数据集,仅支持存储类型为NFS协议的文件存储(NAS)的数据集。

  • 当数据集挂载点设置为只读时,不支持对其下的文件夹/文件进行修改或删除操作,否则会因权限问题报错。

计费说明

DataWorks数据集功能不收费,但使用OSSNAS存储数据会产生相应的存储费用和网络访问费用。详情请参见OSS计费NAS计费

创建数据集

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 在数据地图左侧导航栏中,单击数据目录image),进入数据目录页面。在目录列表中单击Dataset Catalog

  3. 找到需要创建数据集的工作空间后,单击工作空间名称,进入工作空间数据集的详情页,该页面将展示空间下已经创建好的所有数据集,您可通过新建数据集按钮,参照下文,快速创建DataWorks数据集。

存储类型为对象存储(OSS)

  • 数据集配置

    配置项

    配置说明

    存储类型

    对象存储(OSS)

    内容类型

    选择您注册数据的类型。此处非必选,默认为通用。

  • 导入配置

    配置项

    配置说明

    OSS 路径

    指定需要挂载的OSS文件夹路径。

    说明

    请确保您有对应OSS Bucket的权限

    默认挂载路径

    指定OSS文件夹的默认挂载路径,后续可通过此路径在DataWorks访问数据。系统默认为挂载至/mnt/data/,可以手动调整挂载路径。

存储类型为文件存储(NAS)

  • 数据集配置

    配置项

    配置说明

    存储类型

    可选文件存储(通用型NAS文件存储(极速型NAS

    内容类型

    选择您注册数据的类型。此处非必选,默认为通用。

  • 导入配置

    配置项

    配置说明

    文件系统

    选择在当前阿里云账户下,当前地域创建的目标NAS系统。

    文件系统挂载点

    配置挂载点来访问NAS文件系统。

    重要

    请确保挂载点的VPC和资源组的VPC网络已连通:

    • 推荐NAS挂载点与资源组使用同一VPC,确保网络连通。

    • 其他场景,请参考网络连通方案NAS挂载点的VPC与资源组配置的VPC网络打通。

    文件系统路径

    指定需要挂载的NAS文件夹路径,默认为根目录/路径。需要确保该路径在NAS系统中确实存在,否则在使用该数据集时会出现错误。

    默认挂载路径

    指定上述NAS文件夹在数据集的默认挂载路径,后续您可以通过该路径在DataWorks访问上述NAS路径上的数据。系统默认为/mnt/data/,可手动调整挂载路径。

管理数据集

数据目录 > Dataset Catalog中,进入目标空间下的数据集列表,单击需要管理的数据集操作列的详情,进入数据集详情页面,可查看数据集的详细概览信息数据集版本信息,并且还可以进行以下操作:

  • 新建版本:单击右上角的新建版本按钮,进入数据集版本创建页面。在创建新版本时,您可以自定义OSS路径NAS文件系统配置,并设置默认挂载路径

  • 删除数据集:单击数据集详情页右上角的删除按钮,即可删除该数据集。

  • 查看数据集数据:仅支持查看对象存储(OSS)类型的数据集。在数据集版本模块标题右侧的下拉菜单中选择目标版本后,单击OSS查看,即可直接跳转至OSS管理控制台并进入对应版本配置的存储路径。

  • 删除版本:在数据集版本模块标题右侧的下拉菜单中选择目标版本后,单击删除按钮即可删除该版本。

重要

无论是删除数据集还是删除数据集版本,不会删除原始文件,但删除后在DataWorks数据集功能中将无法恢复,请谨慎操作。

使用数据集

DataWorks支持您在数据开发节点(Shell节点Python节点Notebook开发)以及个人开发环境中使用已创建的数据集。

具体操作请参见使用数据集