使用新版数据开发前,需要先创建工作空间,参与数据开发(Data Studio)新版公测,然后绑定计算资源和数据目录,本文介绍这些准备工作的具体操作。
相关概念
计算资源
计算资源是计算引擎用于执行数据处理和分析任务的资源实例,如MaxCompute项目(Quota组)、Hologres实例等。例如,在大数据处理场景下,使用阿里云MaxCompute时,你可以通过设置Quota组来管理你的计算任务所使用的计算资源量。
一个工作空间支持添加多种计算资源。为工作空间绑定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce、CDH、OpenSearch、Serverless Spark、Serverless StarRocks和全托管 Flink后,即可在工作空间开发和调度计算资源的相关任务。
数据源
数据源用于连接不同的数据存储服务,它包含了连接到该数据库所需的所有信息(如用户名、密码、主机地址等)。在数据开发前,您需要先定义好数据源信息,以便在执行节点任务时,能够通过选择数据源名称来确定数据读取和写入的数据库。一个工作空间支持添加多种数据源实例。
数据目录
数据目录是一个结构化的列表或地图,用来展示一个组织内部所有的数据资产,包括但不限于数据库、表、文件等。对于DataWorks这样的平台而言,数据目录记录了关于这些数据资产的元数据信息。
计算资源、数据源、数据目录之间的关系
三者是独立的对象,但存在关联关系,具体关系如下:
创建计算资源时,可关联创建出数据源和数据目录。
创建数据源时,可关联创建出数据目录。
创建数据目录时,无法关联创建出数据源或计算资源。
创建工作空间
进入DataWorks工作空间列表页,在顶部切换至目标地域后,单击创建工作空间。
说明如果您的计算资源位于阿里云,建议选择与计算资源相同的地域,后续通过内网访问。
如果您的计算资源无法通过内网连通,建议选择与您物理位置较近的地域,后续通过公网访问。
在创建工作空间页面,配置如下参数信息:
基本信息
参数
说明
工作空间名称
工作空间的唯一标识,创建后无法修改。
显示名
建议基于业务属性命名,便于标识工作空间用途。
描述
用于辅助标识工作空间的主要用途、相关信息。
高级设置
参数
说明
生产、开发环境隔离
定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。
隔离生产、开发环境:该方式创建的工作空间为标准模式工作空间。
不隔离生产、开发环境:默认值,该方式创建的工作空间为简单模式工作空间。
工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。
空间管理员
工作空间创建人,默认是工作空间管理员。工作空间管理员权限较大,请谨慎授权。
参加数据开发(Data Studio)(新版)公测
是否参加新版数据开发公测。
重要本文后续介绍内容均为新版数据开发内容,请确保已打开此开关。
创建同名AI工作空间
是否创建相同名称的AI工作空间,默认开启,您可以在AI工作空间中调度PAI上的算法任务。
默认资源组配置
工作空间默认使用的DataWorks资源组,后续可在工作空间配置中修改。资源组的更多信息,请参见DataWorks资源组概述。
阿里云资源组
选择阿里云资源管理中创建的资源组,默认选择默认资源组。
若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。
重要此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行所需使用的资源组为两个概念,请注意区分。
参数配置完成后,单击创建工作空间,在确认窗口中单击创建。
创建完成后,将自动进入绑定计算资源引导,您也可以单击关闭,在需要绑定时再进行计算资源的绑定。具体操作,请参见绑定计算资源。
绑定计算资源
DataWorks工作空间支持绑定多种计算资源,具体绑定说明如下:
分类 | 计算资源 | 绑定说明 |
离线计算 | MaxCompute | DataWorks无法直连到MaxCompute的Quota上,只能绑定到MaxCompute项目上。绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。 |
Serverless Spark | 绑定Spark工作空间。Spark计算资源无需绑定数据目录。 | |
实时查询 | Hologres | DataWorks无法直连到Hologres的计算组,需要绑定到Hologres的Database上。绑定Hologres计算资源后,会同步创建Hologres数据源、绑定Hologres数据目录。 |
Serverless StarRocks | DataWorks无法直连到StarRocks的队列,需要绑定到StarRocks的实例(Instance)。绑定StarRocks计算资源,会同步创建StarRocks的数据源、绑定StarRocks的数据目录。 | |
全托管 | 全托管Flink | 绑定Flink项目空间。Flink计算资源无需绑定数据目录。 |
多模态搜索 | OpenSearch | 绑定OpenSearch实例。绑定OpenSearch计算资源后,会同步创建OpenSearch数据源。该计算资源无需绑定数据目录。 |
创建工作空间时绑定计算资源
完成工作空间创建后,将自动进入绑定计算资源引导,您可以根据您的计算资源类型,选择创建。
绑定计算资源操作步骤如下:
创建工作空间后绑定计算资源
DataWorks支持在工作空间详情页和管理中心中绑定计算资源和数据目录,您可以按需选择。
工作空间详情页绑定
您可以在工作空间创建成功后,前往工作空间详情页,绑定计算资源和数据目录。
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。
切换至计算资源页签,单击绑定计算资源。
选择需要绑定的计算资源类型,然后配置相关参数。
说明绑定计算资源可参考创建并管理计算资源(新版数据开发)。
绑定数据目录相关参数可参考从管理中心、工作空间详情页绑定数据目录。
管理中心绑定
您可以在工作空间创建成功后,前往管理中心绑定计算资源和数据目录。
进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心。
在左侧导航栏单击计算资源。
在计算资源页面,单击绑定计算资源,选择需要绑定的计算资源类型,然后配置相关参数。
说明绑定计算资源可参考创建并管理计算资源(新版数据开发)。
绑定数据目录相关参数可参考从管理中心、工作空间详情页绑定数据目录。
绑定数据目录
除绑定计算资源中部分计算资源会同步绑定对应数据目录外,您也可以单独绑定DLF Catalog、MaxCompute、Hologres、StarRocks类型的数据目录,用于在新版数据开发中可视化查看和管理。详情请参见数据目录。
查看已绑定的计算资源和数据目录
查看计算资源
工作空间详情页查看
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。
切换至计算资源页签,查看已绑定的计算资源。
管理中心查看
进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心。
在左侧导航栏单击计算资源,查看已绑定的计算资源。
查看数据目录
由绑定计算资源时自动绑定的数据目录,不支持解绑,解绑计算资源时会同时解绑。
工作空间查看
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。
切换至数据目录页签,查看已绑定的数据目录。
管理中心查看
进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心。
在左侧导航栏单击数据目录,查看已绑定的数据目录。
后续步骤
您可以前往新版数据开发中查看和管理数据目录中的详细表信息,具体操作,请参见数据目录。