开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。
产品介绍
阿里云EMR提供了on ECS、on ACK和Serverless形态,以满足不同用户的需求。
形态 | 描述 |
EMR on ECS | EMR负责将开源Hadoop生态的组件安装部署在ECS上,并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。 关于EMR on ECS的更多介绍,请参见什么是EMR on ECS。 |
EMR on ACK | 您需要先完成ACK集群的安装部署。当ACK集群准备就绪后,EMR将基于ACK的资源安装部署大数据服务组件,并在容器内运行。关于EMR on ACK的更多介绍,请参见什么是EMR on ACK。 |
EMR Serverless StarRocks | EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。 关于EMR Serverless StarRocks的更多介绍,请参见什么是EMR Serverless StarRocks。 |
EMR Serverless Spark | EMR Serverless Spark是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless Spark,企业可以更专注于数据分析和价值提炼,提高工作效率。 关于EMR Serverless Spark的更多介绍,请参见什么是EMR Serverless Spark。 |
产品架构
产品优势
EMR on ECS
EMR为您提供了相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。
100%采用社区开源组件,适配并优化开源组件,性能远高于开源版本。
基于时间的弹性伸缩能力,抢占式实例可进一步降低成本。
解耦了计算与存储之间的绑定关系,实现了资源的弹性利用。
分钟级别创建和扩容集群,无需手动部署和启动服务。
EMR on ACK
节省成本:无需单独购买ACK集群。
简化运维:一套运维体系,一套集群管理,全面覆盖大数据和在线等多种业务。
优化体验:支持ECS和ACK两套IaaS资源模型,您可以无缝切换。
深度集成:完全采用云原生数据湖架构,计算使用阿里云ACK,计算资源可以无限扩展。
EMR Serverless StarRocks
EMR Serverless StarRocks主要在企业级功能方面做了以下增强:
全托管的免运维产品服务形态,大大降低了运维和使用的复杂度以及成本。
可视化的StarRocks实例管理控制台,使得实例的整体运维和管理更加方便。
可视化的监控及运维能力。
支持大、小版本自动升级,方便StarRocks进行版本升级管理。
增加EMR StarRocks Manager,提供了企业级的StarRocks管理能力:
安全能力:支持用户及权限管理。
诊断分析:支持可视化慢SQL,及SQL查询分析能力。
数据管理:提供数据库、表、分区、分片、任务的查询能力,方便运维管理。
EMR Serverless Spark
云原生极速计算引擎
内置Fusion Engine (Spark Native Engine),相对开源版本性能提升200%。
内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。
开放化的数据湖架构
支持计算存储分离,计算可弹性伸缩,存储可按量付费。
对接OSS-HDFS,完全兼容HDFS的云上存储,无缝平滑迁移上云。
中心化的DLF元数据,全面打通湖仓元数据。
一站式的开发体验
提供作业开发、调试、发布、调度等一站式数据开发体验。
内置版本管理、开发与生产隔离,满足企业级开发与发布标准。
Serverless的资源平台
开箱即用,无需手动管理和运维云基础设施。
弹性伸缩,秒级资源弹性与供给。
按量付费,按实际计算资源量付费,进一步降低计算总成本。