Spark on ECI大数据分析-阿里云帮助中心

Spark和云原生结合提供计算与存储分离的高性价比大数据分析。

直达最佳实践

场景描述

Spark作为快速、通用的大规模数据处理平台，更多关注Spark Application的管理，底层实际资源调度和管理更多的是依靠外部平台的支持例如Mesos、YARN、Kubernetes等。借助阿里云的容器服务Kubernetes版（ACK）、弹性容器组实例（ECI）、文件存储 HDFS或者对象存储OSS提供灵活弹性计算资源弹性可扩展、计算与存储分离架构、成本可控的Spark on ECI解决方案实践。

解决架构

方案优势

计算引擎弹性扩缩容，兼顾资源弹性与计算资源成本优化。
计算与存储分离架构，结合阿里云原生云存储产品，海量数据湖优势。
Kubernetes原生的调度性能优势，提升在大规模分析作业时的分析性能优势分。
集群资源隔离和按需分配。

解决问题

计算资源弹性能力不足，计算资源成本管控能力欠缺。
集群资源调度能力和隔离能力不足。
计算与存储无法分离，大数据量分析时出现数据存储资源瓶颈。
Spark submit方式提交分析作业参数支持有限等缺点。

直达最佳实践

更多最佳实践

场景描述

解决架构

方案优势

解决问题