全部产品
云市场

Serverless Spark概述

更新时间:2020-06-02 16:51:41

Serverless Spark基于云原生架构,通过无服务器的使用方式,面向数据湖场景的数据分析和计算。开通DLA服务后即可根据业务需要提交Spark作业。Spark作业运行过程中,计算资源按照任务负载动态分配,Spark作业结束后,根据实际使用量计费。相较于传统模式,Serverless Spark帮您省去繁琐的资源规划和配置工作。

实现架构

实现架构

基本概念

  • 虚拟集群(Virtual Cluster)

    Serverless Spark采用多租户模式,Spark进程运行在安全隔离的环境中,虚拟集群是资源隔离和安全隔离的单元。

    区别于传统实体集群,虚拟集群中没有固定的计算资源,您无需配置和维护计算节点,只需根据实际业务需要分配资源额度和配置待访问数据所在的网络环境。同时,支持在集群级别配置Spark作业参数,方便您统一管理Spark作业。

  • 计算单元CU(Compute Unit)

    CU是Serverless Spark的计量单元,1CU=1 vCPU 4GB Memory。Spark作业运行结束后,DLA按照作业实际使用的CU和时长进行计费。

    目前Serverless Spark正在进行公测,公测期间欢迎大家免费试用。

  • 资源规格(Resource Specification)

    Serverless Spark底层使用阿里云弹性容器实例 ECI(Elastic Container Instance),为简化用户理解和操作,DLA系统中屏蔽了ECI规格,您只需在DLA控制台选择small、medium或者large,DLA在调度资源时优先使用高性能计算资源。

    规格 计算资源 CU数
    small 1Core 4GB 1
    medium 2Core 8GB 2
    large 4Core 16GB 4

功能限制

目前DLA Serverless Spark有以下功能限制:

  • 只支持通过Spark访问OSS数据源,后续将开放更多数据源。

  • 目前Serverless Spark只支持三种CU规格small、medium、large,后续将支持更多CU规格。

  • 一个阿里云账号最多可以创建10个虚拟集群。

如何使用Serverless Spark

  1. 创建虚拟集群

  2. 创建和执行Spark作业