Databricks Runtimes是在Databricks集群上运行的一组核心组件。Databricks提供了几种类型的Runtime。
Databricks Runtime Databricks Runtime包括Apache Spark,但还添加了许多组件和更新,这些组件和更新极大地提高了大数据分析的可用性,性能和安全性。 | 用于机器学习的Databricks Runtime(敬请期待) Databricks Runtime ML是Databricks Runtime的变体,它添加了多个流行的机器学习库,包括TensorFlow,Keras,PyTorch和XGBoost。 |
用于基因组的Databricks Runtime (敬请期待) 用于基因组的 Databricks Runtime 是Databricks Runtime的一种变体,已针对基因组和生物医学数据进行了优化。 | Databricks Light(敬请期待) Databricks Light 为不需要Databricks Runtime提供的高级性能、可靠性或自动缩放优势的作业提供了运行时选项。 |
Databricks Runtime
Databricks Runtime包括Apache Spark,但还添加了许多组件和更新,这些组件和更新大大改善了大数据分析的可用性,性能和安全性:
Delta Lake是在Apache Spark之上构建的下一代存储层,可提供ACID事务,优化的布局和索引以及用于构建数据管道的执行引擎改进。
已安装的Java,Scala,Python和R库。
Ubuntu及其随附的系统库。
适用于启用GPU的集群的GPU库。
与平台的其他组件集成的Databricks服务,例如笔记本,作业和集群管理器。
Runtime 版本控制
Databricks Runtime 版本会定期发布:
主要版本以小数点之前的版本号递增表示(例如,从3.5跳到4.0)。当发生重大更改时,它们会被释放,其中某些更改可能无法向后兼容。
功能部件版本以小数点后的版本号递增表示(例如,从3.4跳到3.5)。每个主要版本均包含多个功能版本。功能版本始终与其主要版本中的先前版本向后兼容。
长期支持版本由LTS限定符表示(例如3.5 LTS)。对于每个主要版本,Databricks 都会声明一个“规范”功能版本,并提供为期两年的支持。有关更多信息,请参见Databricks运行时支持生命周期。
当前Databrick 数据洞察支持版本为:DBR5.5,Spark2.4.3,Scala 2.11。
用于机器学习的Databricks Runtime
用于机器学习的Databricks Runtime(Databricks Runtime ML)自动创建针对机器学习优化的集群。Databricks Runtime ML集群包括最受欢迎的机器学习库,例如TensorFlow,PyTorch,Keras和XGBoost,还包括分布式培训所需的库,例如Horovod。使用Databricks Runtime ML可以加快集群的创建速度,并确保已安装的库版本兼容。
用于机器学习的Databricks Runtime简介
本教程是为Databricks Runtime ML的新用户设计的。完成此过程大约需要10分钟,并显示了一个完整的端到端示例,该示例包含加载表格数据,训练模型,分布式超参数调整和模型推断的示例。它还说明了如何使用MLflow API和MLflow模型注册表。
Databricks Runtime ML中包含的库
Library utilities are not available in Databricks Runtime ML.
Databricks Runtime ML包括各种流行的ML库。该库随每个发行版进行更新,以包括新功能和修复。
Databricks已将受支持的库的子集指定为顶级库。对于这些库,Databricks提供了更快的更新节奏,可以在每个运行时版本中更新到最新的程序包版本(除非存在依赖冲突)。Databricks还为顶级库提供高级支持,测试和嵌入式优化。
有关顶级库和其他提供的库的完整列表,请参见以下有关每个可用Runtime的文章:
如何使用Databricks Runtime ML
除了预安装的库之外,Databricks Runtime ML在集群配置以及如何管理Python包方面与Databricks Runtime不同。
使用Databricks Runtime ML创建集群
当你创建一个集群,请从Databricks运行时版本下拉列表中Databricks运行ML版本。支持CPU和GPU的ML运行时均可用。
如果选择支持GPU的ML运行时,系统将提示您选择兼容的Driver Type和Worker Type。下拉列表中不兼容的实例类型显示为灰色。GPU加速标签下列出了启用GPU的实例类型。
当前Databrick 数据洞察支持版本为:DBR5.5,Spark2.4.3,Scala 2.11。
管理Python套件
在Databricks Runtime ML中,Conda软件包管理器用于安装Python软件包。所有Python软件包都安装在一个环境中:/databricks/python2在使用Python2的/databricks/python3集群上和在使用Python3的集群上。不支持切换(或激活)Conda环境。
AutoML支持
Databricks Runtime ML包括可自动进行模型开发过程并帮助您有效地找到最佳性能模型的工具。
托管MLFlow管理端到端模型生命周期,包括跟踪实验运行,部署和共享模型以及维护集中式模型注册表。
通过SparkTrials类增加的Hyperopt自动执行并分发ML模型参数调整。
Databricks Runtime for Genomics
Databricks Runtime for Genomics(Databricks Runtime Genomics)是Databricks Runtime的一个版本,该版本针对处理基因组和生物医学数据进行了优化。它是Databricks基因组统一分析平台的一部分。
从版本6.0开始,通常可以使用(GA)Databricks Genomics Runtime。
Databricks Runtime for Genomics中有什么?
Databricks-Regeneron开源库Glow的优化版本,具有所有功能以及:
Spark SQL支持读取和写入变量数据
通用工作流程元素的功能
常见查询模式的优化
与Apache Spark并行的Turn-key pipelines:
常用的开源库,针对性能和可靠性进行了优化:
ADAM
GATK
Hadoop-bam
常用的命令行工具:
samtools
参考数据(grch37或38,已知SNP位点)
要求
您的Databricks工作区必须启用了用于基因组学的Databricks Runtime 。
使用Databricks Runtime for Genomics创建集群
当你创建一个集群,请从Databricks Runtime版本下拉列表中Databricks Runtime的基因组版本。
Databricks Light
Databricks Light是开源Apache Spark Runtime的Databricks打包。它为不需要Databricks Runtime提供的高级性能,可靠性或自动缩放优势的作业提供了运行时选项。特别是,Databricks Light不支持:
Delta Lake
自动驾驶功能,如自动缩放
高度并发的通用集群
笔记本,仪表板和协作功能
各种数据源和BI工具的连接器
Databricks Light是作业(或“自动工作负载”)的Runtime环境。当您在Databricks轻型集群上运行作业时,它们会受到较低的作业轻计算定价的影响。只有在创建或计划JAR、Python或spark提交作业并将集群附加到该作业时,才能选择Databricks Light;不能使用Databricks Light运行笔记本作业或交互式工作负载。
Databricks Light可以与在其他Databricks Runtime和定价层上运行的集群一起在同一工作空间中使用。您无需请求单独的工作区即可上手。
Databricks Light中有什么?
Databricks Light运行时的发布时间表遵循Apache Spark运行时的发布时间表。任何Databricks Light版本均基于特定版本的Apache Spark。有关更多信息,请参见以下发行说明:
使用Databricks Light创建集群
创建作业集群时,从Databricks运行时版本下拉列表中选择Databricks Light版本。
有关Databricks的详细信息,请参考官方文档:Databricks Runtime