DataWorks的工作空间即MaxCompute中项目的概念,本文为您介绍如何创建工作空间。

前提条件

请根据开通DataWorks中的步骤检查账号是否已可用。如果验证无误,请根据下文操作创建工作空间。
说明

子账号如果需要代主账号进行相关操作,需要拥有对应的权限。主账号为子账号授权相应的权限可参考:主账号如何给子账号添加Aliyundataworksfullaccess权限?如何为子账号授权购买相关服务的权限?

操作步骤

  1. 使用主账号登录DataWorks控制台
  2. 概览页面,单击右侧的创建工作空间
    您也可以单击左侧导航栏中的工作空间列表,切换至相应的区域后,单击创建工作空间
  3. 创建工作空间对话框,配置各项参数,单击下一步
    分类 参数 描述
    基本信息 工作空间名称 工作空间名称的长度需要在3~28个字符,以字母开头,且只能包含字母、下划线(_)和数字。
    显示名 显示名不能超过23个字符,只能字母、中文开头,仅包含中文、字母、下划线(_)和数字。
    模式 DataWorks的工作空间分为简单模式标准模式
    • 简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。
    • 标准模式:指一个DataWorks工作空间对应两个引擎项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。

    详情请参见简单模式和标准模式的区别

    描述 对创建的工作空间进行简单描述。
    高级设置 能下载select结果 控制数据开发中查询的数据结果是否能够下载,如果关闭无法下载select的数据查询结果。此参数在工作空间创建完成后可以在工作空间配置页面进行修改,详情可参考文档:安全设置
  4. 进入选择引擎界面,选择相应引擎后,单击下一步
    说明
    • 如果您需要绑定E-MapReduce、交互式分析Hologres、AnalyticDB for MySQL或AnalyticDB for PostgreSQL计算引擎,请首先开通相应的服务,才能进行选择。
    • 如果创建工作空间时,未选择正确的计算引擎,可能导致无法在数据开发页面进行创建表和基于引擎节点进行数据清洗等操作。
    DataWorks已正式商用,如果该地域没有开通,需要首先开通正式商用服务。
    选项 参数 描述
    选择DataWorks服务
    说明 默认选中该模块。
    数据集成 数据集成是稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详情请参见数据集成模块。
    数据开发 该页面是您根据业务需求,设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。详情请参见数据开发模块。
    运维中心 该页面可对任务和实例进行展示和操作,您可以在此查看所有任务的实例。详情请参见运维中心模块。
    数据质量 DataWorks数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、数据对比、数据质量监控、SQLScan和智能报警等功能。详情请参见数据质量模块。
    选择计算引擎服务 MaxCompute MaxCompute是一种快速、完全托管的TB或PB级数据仓库解决方案,能够更快速为您解决海量数据计算问题,有效降低企业成本,并保障数据安全。详情请参见MaxCompute
    说明 完成创建DataWorks工作空间后,需要关联MaxCompute项目,否则现执行命令会报project not found的错误。
    E-MapReduce 开通后,您可以在DataWorks中使用E-MapReduce,进行大数据处理任务的开发。详情请参见E-MapReduce
    注意

    DataWorks已暂停绑定E-MapReduce计算引擎,如您有相关需求,请提交工单申请。

    交互式分析Hologres 开通后,您可以在DataWorks中使用Holostudio进行交互式分析的表管理、外部表管理和SQL任务的开发。详情请参见交互式分析
    AnalyticDB for PostgreSQL 开通后,您可以在DataWorks中进行分析型数据库AnalyticDB for PostgreSQL任务的开发,AnalyticDB for PostgreSQL的详情请参见产品概述
    说明 您需要购买DataWorks标准版及以上版本,才可以开通AnalyticDB for PostgreSQL服务。
    AnalyticDB for MySQL 开通后,您可以在DataWorks中进行分析型数据库AnalyticDB for MySQL任务的开发,AnalyticDB for MySQL的详情请参见产品概述
    说明 您需要购买DataWorks标准版及以上版本,才可以开通AnalyticDB for MySQL服务。
    选择机器学习服务 机器学习PAI 机器学习是指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。详情请参见机器学习
  5. 进入引擎详情页面,配置选购引擎的参数。
    • 绑定MaxCompute计算引擎
      参数 描述
      新增方式 您可以创建MaxCompute项目或者绑定已有MaxCompute项目
      实例显示名称 实例名称长度需要控制在3~28个字符,仅支持字母开头,仅包含字母、下划线(_)和数字。
      地域 默认当前工作空间所在的地域。
      付费模式 包括按量付费包年包月开发者版本
      说明 标准模式下不支持添加开发者版本的实例。
      Quota组 Quota用来实现计算资源和磁盘配额。
      MaxCompute数据类型 包括2.0数据类型(推荐)1.0数据类型(面向已有使用1.0数据类型用户)Hive兼容类型(面向Hive迁移用户),详情请参见:数据类型版本说明
      是否加密 根据实际情况选择是否需要加密当前实例。
      生产环境 生产环境下的配置项包括MaxCompute项目名称访问身份
      • MaxCompute项目名称:当前DataWorks工作空间底层使用的MaxCompute生产环境的项目名称。
      • 访问身份:支持您通过阿里云主账号阿里云子账号阿里云RAM角色角色访问MaxCompute。
      开发环境 开发环境下的配置项包括MaxCompute项目名称访问身份
      • MaxCompute项目名称:当前DataWorks工作空间底层使用的MaxCompute开发环境的项目名称。
        说明 该MaxCompute项目是计算和存储资源。
      • 访问身份:默认是任务执行者,不可以修改。
    • 绑定E-MapReduce计算引擎
      参数 描述
      实例显示名称 自定义实例的名称。
      地域 默认当前工作空间所在的地域。
      访问模式
      • 当EMR计算引擎的绑定模式为快捷模式时,阿里云主账号RAM用户在DataWorks运行代码或自动调度任务,都只是下发代码至EMR集群,实际运行的身份为集群内的Hadoop用户。
      • 当EMR计算引擎的绑定模式为安全模式时,阿里云主账号RAM用户在下发代码的同时,EMR集群内会匹配对应的同名用户来运行任务。管理者可以使用EMR集群内的Ranger组件对每个用户进行权限管控,最终实现不同阿里云主账号任务责任人阿里云子账号在DataWorks上运行EMR任务时,拥有对应不同数据权限的目的,进行更安全的数据权限隔离。详情请参见准备工作:绑定EMR引擎
      调度访问身份
      • 如果访问模式选择快捷模式,当提交任务至调度系统后,DataWorks调度系统自动运行任务时,您可以选择阿里云主账号阿里云子账号提交代码至EMR集群。
      • 如果访问模式选择安全模式,当任务被提交、发布至生产环境后,DataWorks调度系统自动运行任务时,您可以选择任务责任人阿里云主账号阿里云子账号提交代码至EMR集群,同时该身份对应的Hadoop用户将实际运行代码。
      说明
      • 仅生产环境涉及配置该参数。
      • 为保证工作空间成员可以在DataStudio内正常运行EMR类的任务,请确保开发、管理员等相关角色拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用阿里云主账号运行任务,该账号天然拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用RAM用户运行任务,则需要授予该用户AliyunEMRDevelopAccess权限策略,详情请参见为RAM用户授权
      访问身份 在开发环境运行任务时,提交代码至EMR引擎所使用的身份。此处默认为任务执行者
      说明
      • 仅DataWorks标准模式的工作空间会显示该参数,并且仅开发环境涉及配置该参数。
      • 任务执行者可以为阿里云主账号或RAM用户。
        为保证工作空间成员可以在DataStudio内正常运行EMR类的任务,请确保开发、管理员等相关角色拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用阿里云主账号运行任务,该账号天然拥有AliyunEMRDevelopAccess权限策略。
        • 如果您使用RAM用户运行任务,则需要授予该用户AliyunEMRDevelopAccess权限策略。
      集群ID 从下拉列表中选择调度访问身份账户所在的EMR集群,作为任务的运行环境。
      项目ID 从下拉列表中选择调度访问身份账户所在的EMR项目,作为任务的运行环境。
      说明 如果EMR项目开启访问模式安全模式,则无法被选择。
      YARN资源队列 当前集群下的队列名称。如果无特殊需求,请输入default
      覆盖DataStudio任务队列映射
      • 勾选覆盖DataStudio任务队列时:所有任务将按照当前指定的队列运行。
      • 未勾选覆盖DataStudio任务队列时:
        • 如果节点高级配置中配置了queue,则按照节点的queue配置运行。
        • 如果节点高级配置中没有配置queue(自己删除了该配置),任务将按照当前界面指定的队列运行。
      说明 如果您看不到覆盖DataStudio任务队列功能,可以提交工单联系我们进行升级。
      Endpoint EMR的Endpoint,不可以修改。
      选择资源组 选择已与当前DataWorks工作空间配置网络连通性的独享调度资源组。如果您没有可用的独享调度资源组则需要新建。新建独享调度资源组并配置网络连通性,详情请参见新增和使用独享调度资源组

      选择后,单击测试连通性进行测试,以验证独享调度资源组和E-MapReduce实例的网络连通性。验证后会对资源组进行初始化。

      说明 当EMR集群配置变更时,需要对资源组重新进行初始化。
    • 绑定Hologres计算引擎
      参数 描述
      实例显示名称 实例的显示名称。
      访问身份
      • DataWorks任务提交调度后,作为在Hologres引擎内执行代码的账号。包括阿里云主账号阿里云子账号
        说明 仅生产环境涉及配置该参数。
      • 在开发环境运行任务时,此处默认为任务执行者
      Hologres实例名称 选择需要绑定的Hologres实例。
      数据库名称 输入在SQL Console中新建的数据库的名称。例如,testdb
    • 绑定GraphCompute计算引擎
    • 绑定AnalyticDB for PostgreSQL计算引擎
      参数 描述
      实例显示名称 实例的显示名称,请注意名称需要保持唯一性。
      实例名称 选择需要在工作空间中使用的AnalyticDB for PostgreSQL实例。
      数据库名称 AnalyticDB for PostgreSQL实例下需要绑定使用的数据库的名称。
      用户名 拥有数据库操作权限的Username。,详情请参见创建数据库账号,进入AnalyticDB for PostgreSQL的账号管理页面获取。
      密码 拥有数据库操作权限的Password。,详情请参见创建数据库账号,进入AnalyticDB for PostgreSQL的账号管理页面获取。
      连通性测试 AnalyticDB for PostgreSQL任务实例需要运行在独享调度资源组上,请在此处选择需要使用的独享调度资源组,详情请参见独享资源组模式

      选择后,单击测试连通性进行测试,以验证独享调度资源组和AnalyticDB for PostgreSQL实例的网络连通性。如果您没有可用的独享调度资源组,请单击新建独享资源组创建。

    • 绑定AnalyticDB for MySQL计算引擎
      参数 描述
      实例显示名称 实例的显示名称,请注意名称必须唯一。
      实例名称 选择需要在工作空间中使用的AnalyticDB for MySQL实例。
      数据库名称 AnalyticDB for MySQL实例下绑定的需要使用的数据库名称。
      用户名 拥有数据库操作权限的Username。,详情请参见数据库账号和权限,进入AnalyticDB for MySQL的账号管理页面获取。
      密码 拥有数据库操作权限的Password。,详情请参见数据库账号和权限,进入AnalyticDB for MySQL的账号管理页面获取。
      连通性测试 AnalyticDB for MySQL任务实例需要运行在独享调度资源组上,请在此处选择需要使用的独享调度资源组,详情请参见独享资源组模式

      选择后,单击测试连通性进行连通性测试,以验证独享调度资源组和AnalyticDB for MySQL实例的网络连通性。如果您没有可用的独享调度资源组,请单击新建独享资源组创建。

  6. 配置完成后,单击创建工作空间
    工作空间创建成功后,即可在工作空间列表页面查看相应内容。
    说明
    • 如果您成为工作空间所有者,代表该工作空间内的所有东西都属于您。在给别人赋权之前,任何人无权限访问您的空间。如果您使用的是子账号创建的工作空间,则该工作空间会同时属于子账号和对应的主账号。
    • 子账号无需创建工作空间,只需要被加入到某个工作空间,即可使用MaxCompute。

后续步骤

现在,您已经学习了如何创建工作空间,您可以选择继续添加工作空间成员和角色或直接开始快速入门的操作。您可以通过学习快速入门模块,快速完成一个完整的数据开发和运维操作。