基本概念

本文汇总使用EMR Serverless Spark过程中涉及的基本概念,方便查询和了解EMR Serverless Spark。

概念

说明

工作空间(Workspace)

工作空间是EMR Serverless Spark为业务开发划分的基本单元,是任务、资源和权限的集合。每个工作空间的任务、计算资源以及权限都是隔离的。

资源队列(Resouce Queue)

EMR Serverless Spark采用CU(Compute Unit)作为其基本计量单位。更多CU信息,请参见产品计费

对于单个Spark计算节点,无论是Driver还是Executor,其资源分配根据vCore及内存配置,可以灵活配备一个或多个CU。平台为每个计算节点配备的本地存储空间最小为20GiB,最大可达160GiB。一个任务的CU使用量取决于输入任务的计算复杂度,以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。

会话资源(Spark Session)

会话资源是EMR Serverless Spark工作空间中可用的Spark Session,能够部署于队列中,并为用户提供运行SQL语句和Notebook环境的基础资源。您可以在会话资源中更改关联的引擎版本及队列信息,并根据实际需求调整Spark参数配置。

发布(Publish)

为了避免修改中的文件草稿内容影响正常调度任务,您需要在确定任务修改完成后,发布该草稿文件。该流程主要是将您的开发环境与生产环境隔离。

任务实例(JobRun)

在任务编排系统中,Workflow的运行通常会对应一个JobRunID,表示一个任务实例。

工作流(Workflow)

工作流是指由一系列相关任务组成的有序流程,每个任务之间有明确的依赖关系和执行顺序。

用户(Account)

用户是访问控制功能中的概念,支持将RAM用户添加为成员,并授予相应的权限,才能操作工作空间中的任务、资源等。

角色(Account Role)

角色是访问控制功能中的概念。多个用户可以同时存在于一个角色下,一个用户也可以隶属于多个角色。给角色授权后,该角色下的所有用户拥有相同的权限。