创建工作空间并绑定计算资源

使用新版数据开发前,需要先创建工作空间,参与数据开发(Data Studio)新版公测,然后绑定计算资源和数据目录,本文介绍这些准备工作的具体操作。

相关概念

计算资源

计算资源是一组用于运行程序代码的机器,它决定了Query运行的位置。如MaxCompute Quota组是一种计算资源,运行Query时,可通过MaxCompute项目来指定提交到那个Quota组上。

数据源

数据源用于连接数据库或者数据存储,数据源保存的是数据连接串信息。如MySQL数据源,它决定了如何访问和连接到数据。

数据目录

数据目录是一个组织收集和处理所有数据的清单,包含:数据集、数据库、表、数据湖等对象。对DataWorks来说,数据目录记录了元数据信息。您可以通过绑定计算资源或创建数据源,来采集更多的元数据,生成数据目录。

计算资源、数据源、数据目录之间的关系

三者是独立的对象,但存在关联关系,具体关系如下:

  • 创建计算资源时,可关联创建出数据源和数据目录。

  • 创建数据源时,可关联创建出数据目录。

  • 创建数据目录时,无法关联创建出数据源或计算资源。

创建工作空间

  1. 进入DataWorks工作空间列表页,在顶部切换至目标地域后,单击创建工作空间

    说明
    • 如果您的计算资源位于阿里云,建议选择与计算资源相同的地域,后续通过内网访问。

    • 如果您的计算资源无法通过内网连通,建议选择与您物理位置较近的地域,后续通过公网访问。

  2. 在创建工作空间页面,配置如下参数信息:

    • 基本信息image

      参数

      说明

      工作空间名称

      工作空间的唯一标识,创建后无法修改。

      显示名

      建议基于业务属性命名,便于标识工作空间用途。

      描述

      用于辅助标识工作空间的主要用途、相关信息。

    • 高级设置

      image

      参数

      说明

      生产、开发环境隔离

      定义工作空间模式,即工作空间的生产环境和开发环境是否隔离。

      • 隔离生产、开发环境:该方式创建的工作空间为标准模式工作空间。

      • 不隔离生产、开发环境:默认值,该方式创建的工作空间为简单模式工作空间。

      工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。您可结合业务需求确认,需创建哪种类型的工作空间。

      空间管理员

      工作空间创建人,默认是工作空间管理员。工作空间管理员权限较大,请谨慎授权。

      参加数据开发(Data Studio)(新版)公测

      是否参加新版数据开发公测,本文后续介绍内容均为新版数据开发内容,请确保已打开此开关。

      创建同名AI工作空间

      是否创建相同名称的AI工作空间,默认开启,您可以在AI工作空间中调度PAI上的算法任务。

      默认资源组配置

      工作空间默认使用的DataWorks资源组,后续可在工作空间配置中修改。资源组的更多信息,请参见DataWorks资源组概述

      阿里云资源组

      选择阿里云资源管理中创建的资源组,默认选择默认资源组

      若您的公司购买了多种阿里云资源,则可通过资源管理创建资源组进行云资源分组,并为资源组设置管理员,通过分组独立管理资源组内的所有资源。

      重要

      此处选择的资源组是在阿里云账号下进行资源分组管理的一种机制,帮助您解决单个阿里云账号内的资源分组和授权管理的复杂性问题。与DataWorks产品所说的任务运行需使用的资源组为两个概念,请注意区分。

  3. 参数配置完成后,单击创建工作空间,在确认窗口中单击创建

  4. 创建完成后,将自动进入绑定计算资源引导,您也可以单击关闭,在需要绑定时再进行计算资源的绑定。具体操作,请参见绑定计算资源

绑定计算资源

DataWorks工作空间支持绑定多种计算资源,具体绑定说明如下:

分类

计算资源

绑定说明

离线计算

MaxCompute

DataWorks无法直连到MaxCompute的Quota上,只能绑定到MaxCompute项目上。绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。

Serverless Spark

绑定Spark工作空间。Spark计算资源无需绑定数据目录。

实时查询

Hologres

DataWorks无法直连到Hologres的计算组,需要绑定到Hologres的Database上。绑定Hologres计算资源后,会同步创建Hologres数据源、绑定Hologres数据目录。

Serverless StarRocks

DataWorks无法直连到StarRocks的队列,需要绑定到StarRocks的实例(Instance)。绑定StarRocks计算资源,会同步创建StarRocks的数据源、绑定StarRocks的数据目录。

全托管

全托管Flink

绑定Flink项目空间。Flink计算资源无需绑定数据目录。

多模态搜索

OpenSearch

绑定OpenSearch实例。绑定OpenSearch计算资源后,会同步创建OpenSearch数据源。该计算资源无需绑定数据目录。

创建工作空间时绑定计算资源

完成工作空间创建后,将自动进入绑定计算资源引导,您可以根据您的计算资源类型,选择创建。

image

绑定计算资源操作步骤如下:

MaxCompute

  1. 在左侧选择MaxCompute,然后单击绑定MaxCompute计算资源

  2. 配置如下参数:

    参数

    说明

    MaxCompute项目

    选择需要绑定的MaxCompute项目,您也可以在下拉菜单中单击新建,直接创建MaxCompute项目后,再选择新创建的MaxCompute项目。

    说明

    如果在创建工作空间时选择了隔离生产、开发环境,则此处需要分别为生产和开发环境选择MaxCompute项目。

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号阿里云RAM角色访问

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接MaxCompute计算引擎的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确定

  4. 单击下一步,绑定数据目录,查看已绑定的MaxCompute数据目录。

    说明

    绑定MaxCompute计算资源后,会同步创建MaxCompute的数据源、绑定MaxCompute数据目录。

Serverless Spark

  1. 在左侧选择Serverless Spark,然后单击绑定Serverless Spark计算资源

  2. 配置如下参数:

    参数

    说明

    Spark工作空间

    选择需要绑定的Spark工作空间,您也可以在下拉菜单中单击新建,前往EMR Serverless Spark控制台进行创建,然后再回到DataWorks空间中选择新创建的Spark工作空间。

    说明

    角色授权

    为了DataWorks能够正常获取EMR Serverless Spark集群的信息,首次选择Spark工作空间后,请单击添加服务关联角色作为工作空间管理员

    重要

    创建服务关联角色后,请勿在E-MapReduce Serverless Spark工作空间中移除DataWorks服务关联角色AliyunServiceRoleForDataWorksOnEmrAliyunServiceRoleForDataworksEngine的管理员角色。

    默认引擎版本

    在Data Studio中新建EMR Spark任务时,将会默认使用此处配置的引擎版本、消息队列和SQL Compute。如需面向不同任务设置不同的引擎版本、资源队列或SQL Compute,请在Spark任务编辑窗口的高级设置中进行定义。

    默认消息队列

    默认SQL Compute

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号任务责任人

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,然后单击关闭

    说明

    Spark无需绑定数据目录。

Hologres

  1. 在左侧选择Hologres,然后单击绑定Hologres计算资源

  2. 配置如下参数:

    参数

    说明

    Hologres实例

    选择需要绑定的Hologres实例,您也可以在下拉菜单中单击新建,前往Hologres购买页创建,然后再回到DataWorks空间中选择新创建的Hologres实例。

    说明

    Hologres计算组

    当前Hologres实例支持配置计算组,需要为其设置计算组实例,详情可以参考计算组管理

    数据库名称

    选择Hologres实例中的数据库,如果未创建数据库,您也可以在下拉菜单中单击新建。Hologres创建数据库相关参数解释,请参见创建数据库

    默认访问身份

    定义在当前工作空间下,用什么身份访问该数据源。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号阿里云RAM角色访问

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接Hologres实例的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确定

  4. 单击下一步,绑定数据目录,查看已绑定的Hologres数据目录。

    说明

    绑定Hologres计算资源后,会同步创建Hologres数据源、绑定Hologres数据目录。

Serverless StarRocks

  1. 在左侧选择Serverless StarRocks,然后单击绑定Serverless StarRocks计算资源

  2. 配置如下参数:

    参数

    说明

    StarRocks实例

    选择需要绑定的StarRocks实例,您也可以在下拉菜单中单击新建,前往EMR StarRocks控制台创建,然后再回到DataWorks空间中选择新创建的StarRocks实例。

    说明

    数据库名称

    选择StarRocks实例中的数据库。如果未创建数据库,您需要先在StarRocks实例中创建数据库,详情请参见创建数据库

    用户名

    密码

    创建StarRock实例时设置的账号和密码,账号默认为admin。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接StarRocks实例的资源组,可在此处测试连通性。如当前工作空间暂无已绑定的资源组,可不选择。

    说明

    如无可用的资源组,您可以创建资源组并绑定工作空间之后,再到工作空间的详情中测试与计算资源的连通性。具体请参见新增和使用Serverless资源组

  3. 单击确定

  4. 单击下一步,绑定数据目录,查看已绑定的StarRock数据目录。

    说明

    绑定StarRock计算资源后,会同步创建StarRock数据源、绑定StarRock数据目录。

全托管Flink

  1. 在左侧选择全托管Flink,然后单击绑定全托管Flink计算资源

  2. 配置如下参数:

    参数

    说明

    Flink工作空间

    选择需要绑定的Flink工作空间,您也可以在下拉菜单中单击新建,前往全托管Flink购买页创建,然后再回到DataWorks空间中选择新创建的Flink工作空间。

    说明

    Flink项目空间

    选择Flink工作空间内的项目空间,工作空间创建完成会创建默认项目空间,您也可以在Flink控制台手动添加其他项目空间后,再在此处选择。

    默认部署目标

    选择默认部署目标,在Data Studio中新建Flink任务时,将会默认使用此处配置的部署目标。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确定,然后单击关闭

    说明

    Flink无需绑定数据目录。

OpenSearch

  1. 在左侧选择OpenSearch,然后单击绑定OpenSearch计算资源

  2. 配置如下参数:

    参数

    说明

    OpenSearch实例

    选择需要绑定的OpenSearch实例,您也可以在下拉菜单中单击新建,前往开放搜索购买页创建,然后再回到DataWorks空间中选择新创建的OpenSearch实例。

    说明

    用户名

    密码

    填写创建OpenSearch实例时设置的用户名和密码。

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确定,然后单击关闭

    说明

    OpenSearch无需绑定数据目录。

创建工作空间后绑定计算资源

DataWorks支持在工作空间详情页和管理中心中绑定计算资源和数据目录,您可以按需选择。

工作空间详情页绑定

您可以在工作空间创建成功后,前往工作空间详情页,绑定计算资源和数据目录。

  1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

  2. 切换至计算资源页签,单击绑定计算资源

  3. 选择需要绑定的计算资源类型,然后配置相关参数。

    说明

    此处绑定计算资源和绑定数据目录相关参数与创建工作空间时绑定计算资源的参数相同。

管理中心绑定

您可以在工作空间创建成功后,前往管理中心绑定计算资源和数据目录。

  1. 进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心

  2. 在左侧导航栏单击计算资源

  3. 在计算资源页面,单击绑定计算资源,选择需要绑定的计算资源类型,然后配置相关参数。

    说明

    此处绑定计算资源和绑定数据目录相关参数与创建工作空间时绑定计算资源的参数相同。

绑定数据目录

绑定计算资源中部分计算资源会同步绑定对应数据目录外,您也可以单独绑定DLF Catalog、MaxCompute、Hologres、StarRocks类型的数据目录,用于在新版数据开发中可视化查看和管理。详情请参见数据目录

查看已绑定的计算资源和数据目录

查看计算资源

  • 工作空间详情页查看

    1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

    2. 切换至计算资源页签,查看已绑定的计算资源。

      image

  • 管理中心查看

    1. 进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心

    2. 在左侧导航栏单击计算资源,查看已绑定的计算资源。

      image

查看数据目录

说明

由绑定计算资源时自动绑定的数据目录,不支持解绑,解绑计算资源时会同时解绑。

  • 工作空间查看

    1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的详情,进入工作空间详情页。

    2. 切换至数据目录页签,查看已绑定的数据目录。

      image

  • 管理中心查看

    1. 进入DataWorks管理中心页,顶部切换至目标地域,然后选择已创建的工作空间,单击进入管理中心

    2. 在左侧导航栏单击数据目录,查看已绑定的数据目录。

      image

后续步骤

您可以前往新版数据开发中查看和管理数据目录中的详细表信息,具体操作,请参见数据目录