创建工作空间并绑定计算资源

使用新版数据开发前,需要先创建工作空间,参与数据开发(Data Studio)新版公测,然后绑定计算资源和数据目录,本文介绍这些准备工作的具体操作。

相关概念

计算资源

计算资源是计算引擎用于执行数据处理和分析任务的资源实例,如MaxCompute项目(Quota组)、Hologres实例等。例如,在大数据处理场景下,使用阿里云MaxCompute时,你可以通过设置Quota组来管理你的计算任务所使用的计算资源量。

一个工作空间支持添加多种计算资源。为工作空间绑定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce、CDH、OpenSearch、Serverless Spark、Serverless StarRocks和全托管 Flink后,即可在工作空间开发和调度计算资源的相关任务。

数据源

数据源用于连接不同的数据存储服务,它包含了连接到该数据库所需的所有信息(如用户名、密码、主机地址等)。在数据开发前,您需要先定义好数据源信息,以便在执行节点任务时,能够通过选择数据源名称来确定数据读取和写入的数据库。一个工作空间支持添加多种数据源实例。

数据目录

数据目录是一个结构化的列表或地图,用来展示一个组织内部所有的数据资产,包括但不限于数据库、表、文件等。对于DataWorks这样的平台而言,数据目录记录了关于这些数据资产的元数据信息。

计算资源、数据源、数据目录之间的关系

三者是独立的对象,但存在关联关系,具体关系如下:

  • 创建计算资源时,可关联创建出数据源和数据目录。

  • 创建数据源时,可关联创建出数据目录。

  • 创建数据目录时,无法关联创建出数据源或计算资源。

创建工作空间

  1. 进入DataWorks工作空间列表页,在顶部切换至目标地域后,单击创建工作空间

    说明
    • 如果您的计算资源位于阿里云,建议选择与计算资源相同的地域,后续通过内网访问。

    • 如果您的计算资源无法通过内网连通,建议选择与您物理位置较近的地域,后续通过公网访问。

  2. 在创建工作空间页面,配置如下参数信息:

    • 基本信息image

      参数

      说明

      工作空间名称

      工作空间的唯一标识,创建后无法修改。

      显示名

      建议基于业务属性命名,便于标识工作空间用途。

      描述

      用于辅助标识工作空间的主要用途、相关信息。

    • 高级设置

      image

      参数

      说明

      生产、开发环境隔离

      定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。

      • 隔离生产、开发环境:该方式创建的工作空间为标准模式工作空间。

      • 不隔离生产、开发环境:默认值,该方式创建的工作空间为简单模式工作空间。

      工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。

      空间管理员

      工作空间创建人,默认是工作空间管理员。工作空间管理员权限较大,请谨慎授权。

      参加数据开发(Data Studio)(新版)公测

      是否参加新版数据开发公测。

      重要

      本文后续介绍内容均为新版数据开发内容,请确保已打开此开关

      创建同名AI工作空间

      是否创建相同名称的AI工作空间,默认开启,您可以在AI工作空间中调度PAI上的算法任务。

      默认资源组配置

      工作空间默认使用的DataWorks资源组,后续可在工作空间配置中修改。资源组的更多信息,请参见DataWorks资源组概述

      阿里云资源组

      选择阿里云资源管理中创建的资源组,默认选择默认资源组

      若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。

      重要

      此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行所需使用的资源组为两个概念,请注意区分。

  3. 参数配置完成后,单击创建工作空间,在确认窗口中单击创建

  4. 创建完成后,将自动进入绑定计算资源引导,您也可以单击关闭,在需要绑定时再进行计算资源的绑定。具体操作,请参见绑定计算资源

绑定计算资源

DataWorks工作空间支持绑定多种计算资源,具体绑定说明如下:

分类

计算资源

绑定说明

离线计算

MaxCompute

DataWorks无法直连到MaxCompute的Quota上,只能绑定到MaxCompute项目上。绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。

Serverless Spark

绑定Spark工作空间。Spark计算资源无需绑定数据目录。

实时查询

Hologres

DataWorks无法直连到Hologres的计算组,需要绑定到Hologres的Database上。绑定Hologres计算资源后,会同步创建Hologres数据源、绑定Hologres数据目录。

Serverless StarRocks

DataWorks无法直连到StarRocks的队列,需要绑定到StarRocks的实例(Instance)。绑定StarRocks计算资源,会同步创建StarRocks的数据源、绑定StarRocks的数据目录。

全托管

全托管Flink

绑定Flink项目空间。Flink计算资源无需绑定数据目录。

多模态搜索

OpenSearch

绑定OpenSearch实例。绑定OpenSearch计算资源后,会同步创建OpenSearch数据源。该计算资源无需绑定数据目录。

创建工作空间时绑定计算资源

完成工作空间创建后,将自动进入绑定计算资源引导,您可以根据您的计算资源类型,选择创建。

image

绑定计算资源操作步骤如下:

MaxCompute

  1. 在左侧选择MaxCompute,然后单击绑定MaxCompute计算资源

  2. 配置如下参数:

    参数

    说明

    MaxCompute项目

    选择需要绑定的MaxCompute项目,您也可以在下拉菜单中单击新建,直接创建MaxCompute项目后,再选择新创建的MaxCompute项目。

    说明
    • 如果在创建工作空间时选择了隔离生产、开发环境,则此处需要分别为生产和开发环境选择MaxCompute项目,生产和开发环境不支持选择相同的MaxCompute项目。

    • MaxCompute计算资源计费详情,请参见计费项与计费方式概述

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号阿里云RAM角色访问

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接MaxCompute计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确定

  4. 单击下一步,绑定数据目录,查看已绑定的MaxCompute数据目录。

    说明
    • 绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。

    • 您也可以在创建完成后,在数据目录中查看详情,具体请参见查看数据目录

  5. 单击完成

Serverless Spark

  1. 在左侧选择Serverless Spark,然后单击绑定Serverless Spark计算资源

  2. 配置如下参数:

    参数

    说明

    Spark工作空间

    选择需要绑定的Spark工作空间,您也可以在下拉菜单中单击新建,前往EMR Serverless Spark控制台进行创建,然后再回到DataWorks空间中选择新创建的Spark工作空间。

    说明

    角色授权

    为了DataWorks能够正常获取EMR Serverless Spark集群的信息,首次选择Spark工作空间后,请单击添加服务关联角色作为工作空间管理员

    重要

    创建服务关联角色后,请勿在E-MapReduce Serverless Spark工作空间中移除DataWorks服务关联角色AliyunServiceRoleForDataWorksOnEmrAliyunServiceRoleForDataworksEngine的管理员角色。

    默认引擎版本

    在Data Studio中新建EMR Spark任务时,将会默认使用此处配置的引擎版本、消息队列和SQL Compute。如需面向不同任务设置不同的引擎版本、资源队列或SQL Compute,请在Spark任务编辑窗口的高级设置中进行定义。

    默认消息队列

    默认SQL Compute

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号任务责任人

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,然后单击关闭

    说明

    Spark无需绑定数据目录。

Hologres

  1. 在左侧选择Hologres,然后单击绑定Hologres计算资源

  2. 配置如下参数:

    参数

    说明

    Hologres实例

    选择需要绑定的Hologres实例,您也可以在下拉菜单中单击新建,前往Hologres购买页创建,然后再回到DataWorks空间中选择新创建的Hologres实例。

    说明

    Hologres计算组

    当前Hologres实例支持配置计算组,需要为其设置计算组实例,详情可以参考计算组管理

    数据库名称

    选择Hologres实例中的数据库,如果未创建数据库,您也可以在下拉菜单中单击新建。Hologres创建数据库相关参数解释,请参见创建数据库

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号阿里云RAM角色访问

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接Hologres实例的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确定

  4. 单击下一步,绑定数据目录,查看已绑定的Hologres数据目录。

    说明
    • 绑定Hologres计算资源后,会同步创建Hologres数据源、绑定Hologres数据目录。

    • 您也可以在创建完成后,在数据目录中查看详情,具体请参见查看数据目录

  5. 单击完成

Serverless StarRocks

  1. 在左侧选择Serverless StarRocks,然后单击绑定Serverless StarRocks计算资源

  2. 配置如下参数:

    参数

    说明

    StarRocks实例

    选择需要绑定的StarRocks实例,您也可以在下拉菜单中单击新建,前往EMR StarRocks控制台创建,然后再回到DataWorks空间中选择新创建的StarRocks实例。

    说明

    数据库名称

    选择StarRocks实例中的数据库。如果未创建数据库,您需要先在StarRocks实例中创建数据库,详情请参见创建数据库

    用户名

    密码

    创建StarRock实例时设置的账号和密码,账号默认为admin。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接StarRocks实例的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确定

  4. 单击下一步,绑定数据目录,查看已绑定的StarRock数据目录。

    说明
    • 绑定StarRock计算资源后,会同步创建StarRock数据源、绑定StarRock数据目录。

    • 您也可以在创建完成后,在数据目录中查看详情,具体请参见查看数据目录

  5. 单击完成

全托管Flink

  1. 在左侧选择全托管Flink,然后单击绑定全托管Flink计算资源

  2. 配置如下参数:

    参数

    说明

    Flink工作空间

    选择需要绑定的Flink工作空间,您也可以在下拉菜单中单击新建,前往全托管Flink购买页创建,然后再回到DataWorks空间中选择新创建的Flink工作空间。

    说明

    Flink项目空间

    选择Flink工作空间内的项目空间,工作空间创建完成会创建默认项目空间,您也可以在Flink控制台手动添加其他项目空间后,再在此处选择。

    默认部署目标

    选择默认部署目标,在Data Studio中新建Flink任务时,将会默认使用此处配置的部署目标。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确定,然后单击关闭

    说明

    Flink无需绑定数据目录。

OpenSearch

  1. 在左侧选择OpenSearch,然后单击绑定OpenSearch计算资源

  2. 配置如下参数:

    参数

    说明

    OpenSearch实例

    选择需要绑定的OpenSearch实例,您也可以在下拉菜单中单击新建,前往开放搜索购买页创建,然后再回到DataWorks空间中选择新创建的OpenSearch实例。

    说明

    用户名

    密码

    填写创建OpenSearch实例时设置的用户名和密码。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确定,然后单击关闭

    说明

    OpenSearch无需绑定数据目录。

创建工作空间后绑定计算资源

DataWorks支持在工作空间详情页和管理中心中绑定计算资源和数据目录,您可以按需选择。

工作空间详情页绑定

您可以在工作空间创建成功后,前往工作空间详情页,绑定计算资源和数据目录。

  1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

  2. 切换至计算资源页签,单击绑定计算资源

  3. 选择需要绑定的计算资源类型,然后配置相关参数。

    说明

管理中心绑定

您可以在工作空间创建成功后,前往管理中心绑定计算资源和数据目录。

  1. 进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心

  2. 在左侧导航栏单击计算资源

  3. 在计算资源页面,单击绑定计算资源,选择需要绑定的计算资源类型,然后配置相关参数。

    说明

绑定数据目录

绑定计算资源中部分计算资源会同步绑定对应数据目录外,您也可以单独绑定DLF Catalog、MaxCompute、Hologres、StarRocks类型的数据目录,用于在新版数据开发中可视化查看和管理。详情请参见数据目录

查看已绑定的计算资源和数据目录

查看计算资源

  • 工作空间详情页查看

    1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

    2. 切换至计算资源页签,查看已绑定的计算资源。

      image

  • 管理中心查看

    1. 进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心

    2. 在左侧导航栏单击计算资源,查看已绑定的计算资源。

      image

查看数据目录

说明

由绑定计算资源时自动绑定的数据目录,不支持解绑,解绑计算资源时会同时解绑。

  • 工作空间查看

    1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

    2. 切换至数据目录页签,查看已绑定的数据目录。

      image

  • 管理中心查看

    1. 进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心

    2. 在左侧导航栏单击数据目录,查看已绑定的数据目录。

      image

后续步骤

您可以前往新版数据开发中查看和管理数据目录中的详细表信息,具体操作,请参见数据目录