Databricks数据洞察(简称DDI)是基于Apache Spark的全托管大数据分析平台。产品内核引擎使用Databricks Runtime,并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云Spark服务,您无需关心集群服务,只需专注在Spark作业的开发上。DDI提供的DataInsight Notebook,可以使数据工程师、数据分析师和数据科学家共享集群计算资源、协同工作。
功能特性
Databricks数据洞察包含了完整的社区版Spark的功能和特性,全面兼容Apache Spark。
Databricks数据洞察包含以下组件:
- Spark SQL和DataFrames
Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。
- Spark Streaming
实时数据处理和分析,可以用写批处理作业的方式写流式作业。支持Java、Scala和Python语言。
- MLlib
可扩展的机器学习库,包含了许多常用的算法和工具包。
- GraphX
Spark用于图和图并行计算的API。
- Spark Core API
支持R、SQL、Python、Scala、Java等多种语言。