场景描述

Spark作为快速、通用的大规模数据处理平台,更多关注Spark Application的管理,底层实际资源调度和管理更多的是依靠外部平台的支持例如Mesos、YARN、Kubernetes等。借助阿里云的容器服务Kubernetes版(ACK)、弹性容器组实例(ECI)、文件存储 HDFS或者对象存储OSS提供灵活弹性计算资源弹性可扩展、计算与存储分离架构、成本可控的Spark on ECI解决方案实践。

解决架构

解决架构图

方案优势

  • 计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。
  • 计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。
  • Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。
  • 集群资源隔离和按需分配。

解决问题

  • 计算资源弹性能力不足,计算资源成本管控能力欠缺。
  • 集群资源调度能力和隔离能力不足。
  • 计算与存储无法分离,大数据量分析时出现数据存储资源瓶颈。
  • Spark submit方式提交分析作业参数支持有限等缺点。

相关产品

  • 容器服务 ACK

    容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。

    更多关于容器服务 ACK的介绍,参见容器服务 ACK产品详情页

  • 弹性容器实例ECI

    阿里云弹性容器实例(Elastic Container Instance)提供安全的Serverless容器运行服务。您无需管理底层服务器,只需要提供打包好的Docker镜像,即可运行容器,并仅为容器实际运行消耗的资源付费。

    更多关于弹性容器实例ECI的介绍,参见弹性容器实例ECI产品详情页

  • 文件存储HDFS

    阿里云文件存储HDFS(Apsara File Storage for HDFS)提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的分布式文件系统。

    更多关于文件存储HDFS的介绍,参见文件存储HDFS产品详情页

  • 对象存储OSS

    阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。

    更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

  • 专有网络VPC

    专有网络VPC帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP 地址范围、网段、路由表和网关等;此外,也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。

    更多关于专有网络VPC的介绍,参见专有网络VPC产品详情页

  • 容器镜像服务ACR

    提供安全的镜像托管能力,稳定的国内外镜像构建服务,便捷的镜像授权功能,方便用户进行镜像全生命周期管理。

    更多关于容器镜像服务ACR的介绍,参见容器服务 ACR产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践