管理Notebook会话

会话是指EMR Serverless Spark工作空间中可用的Spark Session。您需要使用Notebook会话来进行Notebook开发。 本文主要为您介绍如何创建Notebook会话

创建Notebook会话

Notebook会话创建完成后,您可以在进行Notebook开发时选择此会话。

  1. 进入Notebook会话页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > Spark

    3. Spark页面,单击目标工作空间名称。

    4. EMR Serverless Spark页面,选择左侧导航栏中的会话管理

    5. 单击Notebook会话页签。

  2. Notebook会话页面,单击创建Notebook会话

  3. 在创建Notebook会话页面,配置以下信息,单击创建

    重要

    建议将所选部署队列的并发上限至少设置为Notebook会话所需的资源大小,具体数值请以控制台展示为准。

    参数

    说明

    名称

    新建Notebook会话的名称。

    长度限制为1~64个字符,仅支持字母、数字、短划线(-)、下划线(_)和空格。

    部署队列

    请选择合适的开发队列部署会话。仅支持选择开发或者开发和生产公用的队列。

    队列更多信息,请参见管理资源队列

    引擎版本

    当前会话使用的引擎版本。引擎版本号含义等详情请参见引擎版本介绍

    使用Fusion加速

    Fusion可加速Spark负载的运行并降低任务的总成本。有关计费信息,请参见产品计费。有关Fusion引擎介绍,请参见Fusion引擎

    运行环境

    可以选择在运行环境管理页面创建的自定义环境,Notebook会话启动时将根据所选环境预装相关库。

    说明

    仅支持选择已就绪的运行环境。

    自动停止

    默认开启。支持您自定义设置Notebook会话在不活动后的自动停止时间。

    网络连接

    选择已创建的网络连接,以便直接访问VPC内的数据源或外部服务。有关创建网络连接的具体操作,请参见EMR Serverless Spark与其他VPC间网络互通

    挂载纳管文件目录

    默认情况下,该功能处于关闭状态。如果需要使用该功能,请先在文件管理纳管文件目录页签新增文件目录,详情请参见纳管文件目录

    开启后,系统会将纳管文件目录挂载到会话资源中,从而允许在Notebook会话中直接读取和写入该目录下的文件。

    挂载操作会占用一定的计算资源。默认占用的资源为以下两者的较大值:

    • 固定资源:0.3核心(Core)+ 1 GB内存。

    • 动态资源:spark.driver资源的10%(即0.1 × spark.driver的核心数和内存)。

    例如,spark.driver配置为4核心(Core)和8 GB内存,则动态资源为0.4核心 + 0.8 GB内存。此时,实际占用资源为max(0.3 Core + 1GB, 0.4 Core + 0.8GB),即0.4核心 + 1 GB内存。

    说明
    • 纳管文件目录当前仅支持挂载到Driver,不支持挂载到Executor。

    • 在添加纳管文件目录后,具有工作空间文件编辑权限的成员可以通过文件管理界面对文件及文件夹进行编辑;而拥有数据开发相关权限的成员则可以通过Notebook进行文件及文件夹的读写操作。

    spark.driver.cores

    用于指定Spark应用程序中Driver进程所使用的CPU核心数量。默认值为1 CPU。

    spark.driver.memory

    用于指定Spark应用程序中Driver进程可以使用的内存量。默认值为3.5 GB。

    spark.executor.cores

    用于指定每个Executor进程可以使用的CPU核心数量。默认值为1 CPU。

    spark.executor.memory

    用于指定每个Executor进程可以使用的内存量。默认值为3.5 GB。

    spark.executor.instances

    Spark分配的执行器(Executor)数量。默认值为2。

    动态资源分配

    默认关闭。开启后,需要配置以下参数:

    • executors数量下限:默认为2。

    • executors数量上限:如果未设置spark.executor.instances,则默认值为10。

    更多内存配置

    • spark.driver.memoryOverhead:每个Driver可利用的非堆内存。如果未设置该参数,Spark会根据默认值自动分配,默认值为 max(384MB, 10% × spark.driver.memory)

    • spark.executor.memoryOverhead:每个Executor可利用的非堆内存。如果未设置该参数,Spark会根据默认值自动分配,默认值为 max(384MB, 10% × spark.executor.memory)

    • spark.memory.offHeap.size:Spark可用的堆外内存大小。默认值为1 GB。

      仅在spark.memory.offHeap.enabled设置为true时生效。默认情况下,当采用Fusion Engine时,该功能将处于启用状态,其非堆内存默认设置为1 GB。

    Spark配置

    填写Spark配置信息,默认以空格符分隔,例如,spark.sql.catalog.paimon.metastore dlf

查看运行记录

在数据开发任务执行完成后,您可以通过会话管理页面查看任务的运行记录。具体操作步骤如下:

  1. 在会话列表页面,单击会话名称。

  2. 单击运行记录页签。

    在该页面中,您可以查看任务的详细运行信息,包括运行ID,启动时间,Spark UI等信息。

    image

相关文档