本文将为您介绍如何创建工作空间,DataWorks的工作空间即MaxCompute中项目的概念。

前提条件

请根据准备阿里云账号中的步骤检查账号是否已可用。如果验证无误,请根据下文操作创建工作空间。
说明 子账号创建工作空间的流程与本文所描述的步骤一致。

操作步骤

  1. 使用主账号登录DataWorks控制台
  2. 单击控制台概览 > 常用功能下的创建工作空间

    创建工作空间
    您也可以进入工作空间列表页面,单击创建工作空间
    创建工作空间
  3. 填写创建工作空间对话框中的基本配置,单击下一步

    创建工作空间
    分类 配置 说明
    选择region 所有支持DataWorks的区域。 您可以选择与MaxCompute服务一致的区域。
    基本信息 工作空间名称 工作空间名称的长度需要在3到27个字符,以字母开头,且只能包含字母下划线和数字。
    显示名 显示名不能超过27个字符,只能字母、中文开头,仅包含中文、字母、下划线和数字。
    模式 工作空间模式是DataWorks新版推出的新功能,分为简单模式和标准模式,双项目开发模式的区别请参见简单模式和标准模式的区别
    • 简单模式:指一个Dataworks工作空间对应一个MaxCompute项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。
    • 标准模式:指一个Dataworks工作空间对应两个MaxCompute项目,可以设置开发和生产双环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。
    描述 对创建的工作空间进行简单描述。
    高级设置 能下载select结果 控制数据开发中查询的数据结果是否能够下载,如果关闭无法下载select的数据查询结果。
  4. 进入选择引擎界面,选择相应引擎后,单击下一步

    下一步

    DataWorks已正式商用,如果该区域没有开通,需要首先开通正式商用的服务。默认选中数据集成数据开发运维中心数据质量

    选项 配置 说明
    选择DataWorks服务 数据集成 数据集成是稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详情请参见数据集成模块的文档。
    数据开发 该页面是您根据业务需求,设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。详情请参见数据开发模块的文档。
    运维中心 该页面可对任务和实例进行展示和操作,您可以在此查看所有任务的实例。详情请参见运维中心模块的文档。
    数据质量 DataWorks数据质量依托DataWorks平台,为您提供全链路的数据质量方案,包括数据探查、数据对比、数据质量监控、SQLScan和智能报警等功能。详情请参见数据质量模块的文档。
    选择计算引擎服务 MaxCompute MaxCompute是一种快速、完全托管的TB/PB级数据仓库解决方案,能够更快速为您解决海量数据计算问题,有效降低企业成本,并保障数据安全。
    说明 完成创建Dataworks工作空间后,需要关联MaxCompute项目,否则现执行命令会报project not found的错误。
    实时计算 开通后,您可以在DataWorks中使用Stream Studio,进行流式计算任务开发。
    E-MapReduce 开通后,您可以在DataWorks中使用E-MapReduce,进行大数据处理任务的开发。
    选择机器学习服务 机器学习PAI 机器学习是指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。
  5. 进入引擎详情页面,填写选购引擎的配置。

    引擎详情
    分类 配置 说明
    MaxCompute 实例名称 实例名称不能超过27个字符,仅支持字母、中文开头,仅包含中文、字母、下划线和数字。
    MaxCompute项目名称 默认与DataWorks工作空间的名称一致。
    MaxCompute访问身份 包括个人账号工作空间所有者,推荐使用工作空间所有者。
    Quota组切换 Quota用来实现计算资源和磁盘配额。
    StreamStudio 实例名称 控制当前工作空间是否启用调度系统,如果关闭则无法周期性调度任务。
    绑定实时计算项目 选择要绑定的实时计算项目。如果没有项目,可以登录实时计算控制台,进入项目管理页面进行创建。
    EMR 实例名称 自定义实例名称。
    集群名称 自定义集群名称,但需要全局唯一。
    Access ID/Access Key 已经授权可以访问EMR集群的账号的AccessKey。
    EmrClusterID 集群ID,从EMR端获取。
    EmrUserID 用户ID,从EMR端获取。
    EmrProjectID 项目ID,从EMR端获取。
    EmrResource QueueName 计算队列名称,从EMR端获取。
    EmrEndpoint EMR的Endpoint,从EMR端获取。
    PAI 使用GPU 默认不使用,如果需要使用,请前往工作空间配置页面开启GPU使用。
  6. 配置完成后,单击创建工作空间
    工作空间创建成功后,即可在工作空间列表页面查看相应内容。
    说明
    • 如果您成为工作空间所有者,代表该工作空间内的所有东西都属于您。在给别人赋权之前,任何人无权限访问您的空间。如果您使用的是子账号创建的工作空间,则该工作空间会同时属于这个子账号和对应的主账号。
    • 子账号无需创建工作空间,只需被加入到某个工作空间,即可使用MaxCompute。

后续步骤

现在,您已经学习了如何创建工作空间,您可以选择继续添加工作空间成员和角色或直接开始学习快速入门教程。在该教程中您将学习如何快速完成一个完整的数据开发和运维操作。