本文将解答与Notebook相关的问题。
Q:Notebook里执行任务,不同用户之间是串行的么?
如果是SQL,是可以并行执行的;如果是Scala代码,是串行执行的,因为默认所有Note共享一个SparkContext。
相关配置:
参数 | 默认取值 |
---|---|
zeppelin.spark.concurrentSQL | true |
zeppelin.spark.currentSQL.max | 10 |
Q:如何使Note之间相互独立?
设置 per note isolated,使每个Note是一个独立的SparkContext。
Q: 如何配置依赖(jars, python packages)
通过设置spark.jars 来设置依赖的jar包。jar包必须放在OSS上,多个jar包之间通过逗号分隔。
通过设置spark.jars.packages 来设置依赖的package,格式:groupId:artifactId:version, 多个package逗号分隔。
Python package 需要通过Databricks数据洞察控制页面选择相应的python包。
Q:如何配置Spark Application 资源
通过以下属性配置driver的资源:
spark.driver.memory
spark.driver.cores
通过以下属性配置executor的资源:
spark.executor.memory
spark.executor.cores
通过以下属性配置executor数目:
spark.executor.instances