文档

基本概念

更新时间:

本文汇总使用EMR Serverless Spark过程中涉及的基本概念,方便查询和了解EMR Serverless Spark。

概念

说明

工作空间(Workspace)

工作空间是EMR Serverless Spark为业务开发划分的基本单元,是任务、资源和权限的集合。每个工作空间的任务、计算资源以及权限都是隔离的。

资源队列(Resouce Queue)

EMR Serverless Spark采用CU(Compute Unit)作为其基本计量单位。1 CU = 1核CPU+4 GiB内存+本地存储

对于单个Spark计算节点,无论是Driver还是Executor,其资源分配根据vCore及内存配置,可以灵活配备一个或多个CU。平台为每个计算节点配备的本地存储空间最小为20GiB,最大可达160GiB。一个任务的CU使用量取决于输入任务的计算复杂度,以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。

计算资源(Compute)

Compute是EMR Serverless Spark工作空间中可用的计算资源,能够与队列相关联,并为用户提供运行SQL语句和Notebook环境的基础设施。

如果在45分钟内没有执行任何任务,则会自动终止以释放资源。您可以在Compute中更改关联的引擎版本和队列信息,并根据实际需求调整Spark参数配置。

草稿文件(Draft File)

您在EMR Serverless Spark任务开发界面中创建的新任务类型,被称为草稿文件。草稿文件是一种标签,用于表示该任务尚未完成或需要进一步修改。

发布(Publish)

为了避免修改中的文件草稿内容影响正常调度任务,您需要在确定任务修改完成后,发布该草稿文件。该流程主要是将您的开发环境与生产环境隔离。

任务实例(JobRun)

在任务编排系统中,Workflow的运行通常会对应一个JobRunID,表示一个任务实例。

工作流(Workflow)

工作流是指由一系列相关任务组成的有序流程,每个任务之间有明确的依赖关系和执行顺序。

用户(Account)

用户是访问控制功能中的概念,支持将RAM用户添加为成员,并授予相应的权限,才能操作工作空间中的任务、资源等。

角色(Account Role)

角色是访问控制功能中的概念。多个用户可以同时存在于一个角色下,一个用户也可以隶属于多个角色。给角色授权后,该角色下的所有用户拥有相同的权限。