MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景。
关键特性
支持原生多版本Spark作业
社区原生Spark运行在MaxCompute里,完全兼容Spark的API,支持多个Spark版本。
统一的计算资源
MaxCompute Spark与MaxCompute SQL/MR等任务类型相同,运行在MaxCompute项目开通的统一计算资源中。
统一的数据和权限管理
遵循MaxCompute项目的权限体系,在用户权限范围内安全地查询数据。
与开源系统相同的使用体验
提供原生的开源实时Spark UI和查询历史日志的功能。
支持功能
目前MaxCompute Spark支持以下功能:
离线计算:GraphX、Mllib、RDD、Spark-SQL、PySpark等。
读写MaxCompute表数据。
引用MaxCompute中的文件资源。
访问阿里云VPC环境下的服务。
访问阿里云OSS非结构化存储。
读MaxCompute OSS外部表。
DataWorks Notebook
使用限制
目前MaxCompute Spark暂不支持以下场景:
不支持交互式类需求,如Spark-Shell、Spark-SQL-Shell、PySpark-Shell等。
不支持访问MaxCompute内建函数和自定义函数(MaxCompute UDF)。
不支持访问MaxCompute除OSS外部表之外的外部表。
该文章对您有帮助吗?