DataWorks的数据集功能可以实现对非结构化数据(如图像、文档)的有效管理控制,并在DataWorks中使用,本文将为您介绍数据集的创建与使用方式。
背景信息
在使用DataWorks进行数据开发的过程中,当您需要读写存储于OSS、NAS中的数据时,可以使用DataWorks的数据集功能。该功能支持您创建和管理数据集及其多个版本,通过数据集版本管理,您能够追踪数据的版本,并在新版本出现问题时迅速切换至旧版本,以确保业务流畅。
注意事项
当前数据集功能为内测版本,具体能力与稳定性需以实际体验为准。
使用限制
仅数据开发(Data Studio)(新版)支持使用数据集。
在数据开发节点访问数据集时,仅支持使用Serverless资源组。
目前仅Shell节点、Python节点、Notebook开发以及个人开发环境支持使用数据集。
一个数据开发节点最多支持挂载5个数据集,支持存储类型为对象存储(OSS)和NFS协议的文件存储(NAS)的数据集。
一个个人开发环境最多支持挂载5个数据集,仅支持存储类型为NFS协议的文件存储(NAS)的数据集。
当数据集挂载点设置为只读时,不支持对其下的文件夹/文件进行修改或删除操作,否则会因权限问题报错。
计费说明
DataWorks数据集功能不收费,但使用OSS或NAS存储数据会产生相应的存储费用和网络访问费用。详情请参见OSS计费、NAS计费。
创建数据集
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在右侧页面中单击进入数据地图。
在数据地图左侧导航栏中,单击数据目录(
),进入数据目录页面。在目录列表中单击Dataset Catalog。
找到需要创建数据集的工作空间后,单击工作空间名称,进入工作空间数据集的详情页,该页面将展示空间下已经创建好的所有数据集,您可通过新建数据集按钮,参照下文,快速创建DataWorks数据集。
存储类型为对象存储(OSS)
数据集配置:
配置项
配置说明
存储类型
对象存储(OSS)
内容类型
选择您注册数据的类型。此处非必选,默认为通用。
导入配置:
配置项
配置说明
OSS 路径
指定需要挂载的OSS文件夹路径。
说明请确保您有对应OSS Bucket的权限。
默认挂载路径
指定OSS文件夹的默认挂载路径,后续可通过此路径在DataWorks访问数据。系统默认为挂载至
/mnt/data/
,可以手动调整挂载路径。
存储类型为文件存储(NAS)
数据集配置:
配置项
配置说明
存储类型
内容类型
选择您注册数据的类型。此处非必选,默认为通用。
导入配置:
配置项
配置说明
文件系统
选择在当前阿里云账户下,当前地域创建的目标NAS系统。
文件系统挂载点
配置挂载点来访问NAS文件系统。
重要请确保挂载点的VPC和资源组的VPC网络已连通:
推荐NAS挂载点与资源组使用同一VPC,确保网络连通。
其他场景,请参考网络连通方案将NAS挂载点的VPC与资源组配置的VPC网络打通。
文件系统路径
指定需要挂载的NAS文件夹路径,默认为根目录
/
路径。需要确保该路径在NAS系统中确实存在,否则在使用该数据集时会出现错误。默认挂载路径
指定上述NAS文件夹在数据集的默认挂载路径,后续您可以通过该路径在DataWorks访问上述NAS路径上的数据。系统默认为
/mnt/data/
,可手动调整挂载路径。
管理数据集
在
中,进入目标空间下的数据集列表,单击需要管理的数据集操作列的详情,进入数据集详情页面,可查看数据集的详细概览信息和数据集版本信息,并且还可以进行以下操作:新建版本:单击右上角的新建版本按钮,进入数据集版本创建页面。在创建新版本时,您可以自定义OSS路径或NAS文件系统配置,并设置默认挂载路径。
删除数据集:单击数据集详情页右上角的删除按钮,即可删除该数据集。
查看数据集数据:仅支持查看对象存储(OSS)类型的数据集。在数据集版本模块标题右侧的下拉菜单中选择目标版本后,单击去OSS查看,即可直接跳转至OSS管理控制台并进入对应版本配置的存储路径。
删除版本:在数据集版本模块标题右侧的下拉菜单中选择目标版本后,单击删除按钮即可删除该版本。
无论是删除数据集还是删除数据集版本,不会删除原始文件,但删除后在DataWorks数据集功能中将无法恢复,请谨慎操作。
使用数据集
DataWorks支持您在数据开发节点(Shell节点、Python节点、Notebook开发)以及个人开发环境中使用已创建的数据集。
具体操作请参见使用数据集。