Notebook是由一个或多个Note单元组成的,每个Note是一个独立的Spark任务。本文介绍如何使用Notebook。

前提条件

已创建Note,详情请参见管理Notebook

开发Note

  1. 使用阿里云账号登录Databricks数据洞察控制台
  2. 在Databricks数据洞察控制台页面,选择所在的地域(Region)。
    创建的集群将会在对应的地域内,一旦创建后不能修改。
  3. 在左侧导航栏中,单击Notebook
  4. Notebook区域,选择待操作的集群。
  5. DataInsight Notebook页面,单击创建好的Note名。
    您可在单元格里编辑Spark作业。

    单元格的第一行需要指定Interpreter。DataInsight Notebook目前支持以下6种Interpreter。

    Interpreter 说明
    %spark 提供了Scala环境。
    %spark.pyspark 提供了Python环境。
    %spark.ipyspark 提供了IPython环境。
    %spark.r 提供了R环境,支持SparkR。
    %spark.sql 提供了SQL环境。
    %spark.kotlin 提供了Kotlin环境。

添加单元格

DataInsight Notebook页面,将鼠标移动到任意已存在单元格的顶部或底部,单击+ Add Paragraph,即可在页面上添加新的单元格。

创建表

  1. 单击已创建的Note名称。
  2. DataInsight Notebook页面,在单元格中创建数据库。
    %spark.sql
    
    create database db_demo location 'oss://databricks-dbr/db_demo_database';
  3. 在单元格创建表。
    %spark.sql
    
    use db_demo;
    
    create table db_bank_demo(age string, job string, marital string, education string, default string, balance string, housing string, loan string, contact string, day string, month string, duration string, campaign string, pdays string, previous string, poutcome string, y string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ';';
  4. 导入数据到数据库。
    %spark.sql
    
    use db_demo;
    
    load data inpath 'oss://databricks-dbr/db_demo/bank/bank.csv' overwrite into table db_bank_demo;
    
    describe db_bank_demo;

    导入成功后,查看表信息如下所示。

    table

删除单元格

  1. DataInsight Notebook页面,单击单元格右上角的set图标。
  2. 选择Remove
    remove
  3. 在弹出框中单击OK
    即可删除当前单元格。

运行Note

DataInsight Notebook页面,单击单元格右上角的run图标,即可在Notebook内运行作业。

查看可视化运行结果

运行完Note后,在当前单元格中,可单击图形来查看运行结果。Notebook内置了多种图形来可视化Spark的DataFrame:Table、Bar Chart、Pie Chart、Area Chart、Line Chart、Scatter Chart,并且您可以单击settings对各种图形进行配置。

set

查看作业详情

  1. DataInsight Notebook页面,单击单元格右上角的SPARK JOB
  2. 选择待查看的作业。
    即可跳转至该作业的Spark UI,查看作业执行详情。

修改Interpreter模式

默认情况下Spark Interpreter的绑定模式是Shared模式,即所有的Note都是共享同一个Spark App。如果是多用户场景的话,建议设置成Isolated Per Note,这样每个Note都有自己独立的Spark App,互相不会有影响。

  1. DataInsight Notebook页面,单击右上角的set图标。
  2. Settings区域,单击Interpreter
    setting
  3. spark区域,单击edit图标,按截图设置以下参数。
    spark
  4. 单击Save
  5. 在弹出框中单击OK

配置Interpreter

支持以下两种方式配置Interpreter:

  • 配置全局的Interpreter。
    1. DataInsight Notebook页面,单击右上角的set图标。
    2. Settings区域,单击Interpreter
    3. spark区域,单击edit,修改相关的参数。
    4. 单击Save
    5. 在弹出框中单击OK
  • 配置单个Note的Interpreter。

    通过%spark.conf来对每个Note的Spark Interpreter进行定制化,但前提是把Interpreter设置成isolated per note。

    DataInsight Notebook页面的%spark.conf区域,可修改相关的参数。

    %spark.conf
    SPARK_HOME <PATH_TO_SPARK_HOME>
    
    #set driver memory to 8g
    spark.driver.memory 8g
    
    #set executor number to be 6
    spark.executor.instances 6
    #set executor memory 4g
    spark.executor.memory 4g

问题反馈

您在使用阿里云Databricks数据洞察过程中有任何疑问,欢迎用钉钉扫描下面的二维码加入钉钉群进行反馈。

Databricks数据洞察产品群