本文将解答与Notebook相关的问题。

Q:Notebook里执行任务,不同用户之间是串行的么?

如果是SQL,是可以并行执行的;如果是Scala代码,是串行执行的,因为默认所有Note共享一个SparkContext。

相关配置:
参数 默认取值
zeppelin.spark.concurrentSQL true
zeppelin.spark.currentSQL.max 10

Q:如何使Note之间相互独立?

设置 per note isolated,使每个Note是一个独立的SparkContext。

notebook_q2

Q: 如何配置依赖(jars, python packages)

通过设置spark.jars 来设置依赖的jar包。jar包必须放在OSS上,多个jar包之间通过逗号分隔。

通过设置spark.jars.packages 来设置依赖的package,格式:groupId:artifactId:version, 多个package逗号分隔。

Python package 需要通过Databricks数据洞察控制页面选择相应的python包。

Q:如何配置Spark Application 资源

通过以下属性配置driver的资源:

spark.driver.memory

spark.driver.cores

通过以下属性配置executor的资源:

spark.executor.memory

spark.executor.cores

通过以下属性配置executor数目:

spark.executor.instances