Spark和云原生结合提供计算与存储分离的高性价比大数据分析。

直达最佳实践

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践

场景描述

Spark作为快速、通用的大规模数据处理平台,更多关注Spark Application的管理,底层实际资源调度和管理更多的是依靠外部平台的支持例如Mesos、YARN、Kubernetes等。借助阿里云的容器服务Kubernetes版(ACK)、弹性容器组实例(ECI)、文件存储 HDFS或者对象存储OSS提供灵活弹性计算资源弹性可扩展、计算与存储分离架构、成本可控的Spark on ECI解决方案实践。

解决架构

解决架构图

方案优势

  • 计算引擎弹性扩缩容,兼顾资源弹性与计算资源成本优化。
  • 计算与存储分离架构,结合阿里云原生云存储产品,海量数据湖优势。
  • Kubernetes原生的调度性能优势,提升在大规模分析作业时的分析性能优势分。
  • 集群资源隔离和按需分配。

解决问题

  • 计算资源弹性能力不足,计算资源成本管控能力欠缺。
  • 集群资源调度能力和隔离能力不足。
  • 计算与存储无法分离,大数据量分析时出现数据存储资源瓶颈。
  • Spark submit方式提交分析作业参数支持有限等缺点。