文档

创建工作空间

更新时间:

工作空间是Serverless Spark的基本单元,用于管理任务、成员、角色和权限。所有的任务开发都需要在具体的工作空间内进行。因此,在开始任务开发之前,您需要先创建工作空间。本文将为您介绍如何在EMR Serverless Spark页面快速创建工作空间。

前提条件

操作步骤

  1. 进入EMR Serverless Spark页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > Spark

    3. 在顶部菜单栏处,根据实际情况选择地域。

      重要

      创建工作空间后,不能更改地域。

  2. 单击创建工作空间

  3. 在E-MapReduce Serverless Spark页面,完成相关配置。

    参数

    说明

    示例

    地域

    建议选择与您数据所在地相同的地域。

    华东1(杭州)

    付费类型

    目前仅支持按量付费

    按量付费

    工作空间名称

    以字母开头,仅支持英文字母、数字和短划线(-),长度限制为1~60个字符。

    说明

    同一个阿里云账号下的工作空间名称是唯一的,请勿填写已有的名称,否则会提示您重新填写。

    emr-serverless-spark

    DLF Catalog

    用于存储和管理您的元数据。

    开通DLF后,系统会为您选择默认的DLF数据目录,默认为UID。如果针对不同集群您期望使用不同的数据目录,则可以按照以下方式新建目录。

    1. 单击创建数据目录,在弹出的对话框中输入目录ID,然后单击确定详情请参见数据目录

    2. DLF Catalog下拉列表中,选择您新建的数据目录。

    emr-dlf

    瞬时资源上限

    工作空间同时处理任务的最大并发CU数量。

    100

    工作空间基础路径

    用于存储任务日志、运行事件、资源等数据文件。

    建议选择一个开通了OSS-HDFS服务的Bucket,它提供了原生HDFS接口兼容性。如果您的应用场景不涉及HDFS,则可以直接选择一个OSS Bucket。

    emr-oss-hdfs

    工作空间类型

    支持基础版专业版。更多信息,请参见工作空间类型说明

    专业版

    高级设置

    打开该开关后,您需要配置以下信息:

    执行角色:指定EMR Serverless Spark运行任务所采用的角色名,角色名称为AliyunEMRSparkJobRunDefaultRole。

    EMR Spark使用该角色来访问您在其他云产品中的资源,包括OSS和DLF等产品的资源。

    AliyunEMRSparkJobRunDefaultRole

  4. 单击创建工作空间

工作空间类型说明

对比项

基础版

专业版

主要特点

  • 100%兼容开源Spark。

  • 支持阿里云Fusion Engine(Spark Native Engine)。

  • 100%兼容开源Spark。

  • 支持阿里云Fusion Engine(Spark Native Engine)。

  • 内置Celeborn来增强Spark在计算过程中的Shuffle效率。

  • 支持Executor动态分配策略。

适用场景

适用于对Spark有基本需求且对需求要求不是特别高的场景,提供了标准的分布式数据处理能力。

兼容基础版,适用于需要特定优化或扩展功能的复杂应用场景,可以满足用户对性能和功能全面提升的需求。

计费项

按任务实际消耗的CU数计费。

按任务实际消耗的CU数计费,单价有一定上浮。

相关文档

创建工作空间后,您可以开始进行相关任务的开发,例如SparkSQL任务,详情请参见SQL任务快速入门