Spark

更新时间:
复制为 MD 格式

MaxCompute SparkMaxCompute提供的兼容开源的Spark计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景。

关键特性

  • 支持原生多版本Spark作业

    社区原生Spark运行在MaxCompute里,完全兼容SparkAPI,支持多个Spark版本。

  • 统一的计算资源

    MaxCompute SparkMaxCompute SQL/MR等任务类型相同,运行在MaxCompute项目开通的统一计算资源中。

  • 统一的数据和权限管理

    遵循MaxCompute项目的权限体系,在用户权限范围内安全地查询数据。

  • 与开源系统相同的使用体验

    提供原生的开源实时Spark UI和查询历史日志的功能。

支持功能

目前MaxCompute Spark支持以下功能:

  • 离线计算:GraphX、Mllib、RDD、Spark-SQL、PySpark等。

  • 读写MaxCompute表数据。

  • 引用MaxCompute中的文件资源。

  • 访问阿里云VPC环境下的服务。

  • 访问阿里云OSS非结构化存储。

  • MaxCompute OSS外部表。

  • DataWorks Notebook

使用限制

目前MaxCompute Spark暂不支持以下场景:

  • 不支持交互式类需求,如Spark-Shell、Spark-SQL-Shell、PySpark-Shell等。

  • 不支持访问MaxCompute内建函数和自定义函数(MaxCompute UDF)。

  • 不支持访问MaxComputeOSS外部表之外的外部表。