Databricks数据洞察(简称DDI)是基于Apache Spark的全托管大数据分析平台。产品内核引擎使用Databricks Runtime,并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云Spark服务,您无需关心集群服务,只需专注在Spark作业的开发上。DDI提供的DataInsight Notebook,可以使数据工程师、数据分析师和数据科学家共享集群计算资源、协同工作。

功能特性

Databricks数据洞察包含了完整的社区版Spark的功能和特性,全面兼容Apache Spark。

Databricks数据洞察包含以下组件:
  • Spark SQL和DataFrames

    Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。

  • Spark Streaming

    实时数据处理和分析,可以用写批处理作业的方式写流式作业。支持Java、Scala和Python语言。

  • MLlib

    可扩展的机器学习库,包含了许多常用的算法和工具包。

  • GraphX

    Spark用于图和图并行计算的API。

  • Spark Core API

    支持R、SQL、Python、Scala、Java等多种语言。