本文为您介绍如何通过E-MapReduce访问Jupyter以及添加用户。

前提条件

  • 已创建Data Development集群。

    创建集群详情,请参见创建集群

  • 已创建Data Development关联的集群。

    创建集群详情,请参见创建集群

  • 安全组规则已开启8000、8080、8081和8082端口。

    添加安全组规则详情,请参见添加安全组规则

背景信息

当前版本的Jupyter默认使用Jupyter Lab进行启动,其中预装了Pandas、NumPy和Matplotlib等常用数据科学库,并且为EMR定制了PySpark Shell。

访问Jupyter

  1. 进入详情页面。
    1. 登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 单击上方的集群管理页签。
    4. 集群管理页面,单击相应集群所在行的详情
  2. 进入关联集群页面。
    1. 在左侧导航栏中,选择集群服务 > Data Development Center
    2. Data Development Center页面,选择右上角的快捷链接 > Data Development Center
      即可进入关联集群页面。data_development_page
  3. 可选:如果未关联集群,请按照如下步骤关联集群。
    1. 关联集群页面,单击可关联集群
      说明 仅显示同一个VPC下的EMR集群。
    2. 选择待关联集群的集群类型。
    3. 单击待关联集群操作列的关联集群
    4. 关联集群页面,单击绑定
      已关联集群页面,显示关联的集群信息时,表示关联成功。
      说明 绑定集群过程大约需要1~2分钟,请您耐心等待。
  4. 在左侧导航栏,单击Jupyter
    Sign in对话框,输入用户名和密码。
    创建集群时,默认生成的用户名为jupyter_admin,密码为Admin123!Sign in
    说明 您可以使用默认的用户名和密码访问Jupyter,或者添加用户访问Jupyter,详情请参见添加用户。如果您需要修改默认密码,修改密码步骤与添加用户一样,详情请参见添加用户
  5. Server Options页面,选择关联的集群,单击Start
    即可进入Jupyter页面。
    说明 首次启动Jupyter Server需要20秒左右,请您耐心等候。
    Jupter Console
    区域 描述
    Jupyter默认使用运行环境中的文件系统进行Notebook存储。当前版本使用创建Data Developmen集群时绑定的OSS Bucket存储Notebook,以确保Notebook的持久化且不随运行环境变化。
    当前版本预装了开源的PySpark。PySpark依赖Livy服务,如需使用请提前在EMR集群添加Livy服务。
    当前版本为EMR定制了PySparkShell,您可以在Jupyter中获得PySpark Shell on YARN相同的使用体验。

添加用户

  1. 添加Linux用户。
    1. 通过SSH方式连接集群,详情请参见使用SSH连接主节点
    2. 执行如下命令,添加Linux用户。
      useradd <user>
      说明 user为待添加的用户名。
    3. 执行如下命令,设置Linux用户的密码。
      passwd <user>
  2. 配置Jupyter用户。
    1. 在Jupyter页面,选择Flie > Hub Control Panel
    2. 单击上方的Admin页签。
    3. 单击Add Users
    4. Add Users对话框,添写步骤1中添加的用户名,单击Add Users