管理笔记本

更新时间: 2023-12-21 17:11:40

本文为您介绍如何管理EMR Notebook内的笔记本。

笔记本概述

笔记本是进行程序开发的载体,每个笔记本对应一个.ipynb文件。您可以在一个工作空间内创建一个或多个笔记本。

每个笔记本由单元格(Cell)组成。目前EMR Notebook支持以下类型的单元格:

  • SQL:用于编辑和运行SQL代码。

  • Python:用于编辑和运行Python程序。

  • Markdown:用于进行文本编辑,支持Markdown的语法。

使用限制

  • 每个工作空间下同时运行的Notebook数最大为10。

  • 目前SQL Cell在运行Hive SQL时:

    • 不支持查询以分号(;)结尾。

    • 每个Cell内只能运行一条SQL。

新建笔记本

  1. 进入EMR Notebook页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Workbench > Notebook

    3. 在Notebook页面,单击目标工作空间操作列的控制台

  2. 在EMR Notebook首页,选择image > 新建笔记本,新建一个笔记本。

    或者在EMR Notebook首页的使用引导区域,单击新建笔记本下的立即创建

  3. (可选)在新建笔记本的最上方,修改笔记本名称。

    image

运行笔记本

  1. 启动机器。

    在目标Notebook页面,单击右上角的image按钮,在弹出的对话框中单击启动机器。当机器状态显示为空闲时,即可运行笔记本。

    单击image按钮后,如果发现机器处于停止状态,系统会自动启动机器。

    说明

    在机器启动过程中,EMR Notebook会自动打通与所选数据库或者外部集群的VPC。您可能会在ECS控制台看到VPC网络资源相关的日志。

  2. 配置访问方式。

    您可以根据程序代码类型进行配置。

    SQL

    当程序代码为SQL时,需要提前配置数据库,并在SQL单元格中,选择合适的目标数据库。

    image

    PySpark

    当程序代码为PySpark时,需要提前配置外部集群,并为笔记本选择目标EMR集群进行绑定。绑定集群操作,请参见管理外部集群

    重要

    如果您绑定的集群,集群存储根路径使用了OSS-HDFS,则在运行PySpark时,还需授予Notebook访问OSS-HDFS的权限,具体操作请参见授予EMR Notebook访问OSS-HDFS的权限

    image

    Python

    当程序代码为Python时,可以在机器启动后,直接运行单元格。

  3. 运行单元格。

    • 运行所有单元格:在目标笔记本页面,单击上方的运行所有单元格

    • 运行单个单元格:在目标单元格中,单击左侧的image按钮。

复制笔记本

您可以参照以下方法复制出一个同名、且配置相同的笔记本,但默认不会自动启动新建笔记本的机器。

  • 在EMR Notebook的左侧导航栏中,将鼠标悬浮至目标笔记本,选择image > 复制

    image

  • 在目标Notebook的右上角,选择image > 复制

删除笔记本

重要

删除后的笔记本无法恢复,请谨慎操作。

您可以参照以下方法删除笔记本:

  • 在EMR Notebook的左侧导航栏中,将鼠标悬浮至目标笔记本,选择image > 删除

  • 在目标Notebook的右上角,选择image > 删除

导出笔记本

您可以参照以下方法导出笔记本(.ipynb文件):

  • 在EMR Notebook的左侧导航栏中,将鼠标悬浮至目标笔记本,选择image > 导出

  • 在目标Notebook的右上角,选择image > 导出

导入笔记本

  1. 在EMR Notebook首页的使用引导区域,单击新建笔记本下的导入

  2. 选择导出到本地的笔记本(.ipynb文件)。

阿里云首页 开源大数据平台 E-MapReduce 相关技术圈