EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。
产品架构
EMR主要由四部分组成,分别为集成的阿里云产品、开源组件、自研组件和集群管理。其中EMR提供的组件类型及使用场景,请参见组件概览和应用场景。
- 集成的阿里云产品 - EMR可以部署在阿里云ECS上。 
- 数据可以存储在阿里云OSS上。 
- EMR与DataWorks集成,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。 
- EMR Workflow提供全托管的工作流和任务调度服务。 
 
- 开源组件 - 集成Apache社区开源大数据组件,涵盖数据集成、数据存储、资源管理、计算引擎、数据开发、数据服务等多个领域,方便快速搭建高效可靠的数据处理和管理平台。 
- 自研组件 - 为了让开源大数据组件和服务更好地运行在阿里云基础设施上,EMR提供的自研组件如下: - OSS-HDFS:兼容Hadoop分布式文件系统接口的对象存储解决方案,支持大数据计算任务通过标准HDFS协议直接访问阿里云OSS的数据。 
- JindoCache:分布式缓存解决方案,通过在内存中缓存数据块,提高数据读取性能并减少对底层存储系统的压力。 
- DLF-Auth:数据湖构建DLF产品提供,可以开启数据湖构建DLF的数据权限功能。 
 
- 集群管理 - 快速创建、扩容集群能力,支持弹性伸缩部署。 
- 集群配置管理、服务管理,提供节点和服务的可视化运维能力。 
- 多维度指标监控、集群日志与分析、监控与报警能力。 
 
产品优势
EMR为您提供灵活易管理的企业级开源大数据服务。与自建Hadoop集群对比信息可参见EMR与自建Hadoop集群对比优势。
- 稳定可靠的开源组件 - 100%采用社区开源组件,随开源版本升级迭代,详情请参见发行版本。 
- 适配开源组件,避免开源组件之间的版本兼容性问题。 
- 基于开源组件,优化和增强阿里云部署环境,性能远高于开源版本。 
 
- 易用性 - 分钟级搭建大数据计算环境,支持一键调整计算资源规模,无需人工部署和启动服务。 
- 完善的监控和告警体系,支持智能诊断分析,大幅缩减排障路径,提升运维效率。 
 
- 节约成本 - 计算资源按需使用,降低闲置算力成本。 
- 自动数据冷热分层存储,降低单位存储成本。 
- 丰富的运维辅助工具、智能诊断分析,便捷管理大数据平台,降低运维成本。 
 
- 弹性 - 集群资源可根据时间周期或集群负载动态自动调整。 
- 分钟级弹性伸缩,支持多种弹性资源类型。 
 
- 深度整合 - 支持基于阿里云ECS和ACK部署EMR集群,支持ECS多种实例规格,详情请参见ECS实例说明。 
- 集成在DataWorks,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。 
- 集成了数据湖构建(Data Lake Formation),实现数据湖场景下多引擎的统一元数据管理。 
 
产品计费
EMR费用由E-MapReduce服务费用和ECS产品费用组成。如果您在使用EMR过程中还用到了其他云产品,如OSS、数据湖构建、Workflow等,相关费用请参见对应产品的计费文档。
EMR on ECS支持的计费方式如下:
- 包年包月:按一定时长购买资源,先付费后使用。通过包年包月,您可以提前预留资源,同时享受价格优惠,帮您节省支出。 
- 按量付费:按需开通和释放资源,先使用后付费。通过按量付费,您可以灵活使用,无需提前购买大量资源。 
其中节点的公网流量费用与EMR集群使用的计费方式无关,默认使用按量计费。
详细的计费规则,请参见产品计费。
快速开始
- 通过EMR控制台快速创建集群并执行作业,请参见E-MapReduce快速入门。 
- 在DataWorks快速使用EMR集群,完成一站式数据湖开发和治理,请参见DataWorks on EMR快速入门。 
- 通过EMR Workflow可视化地管理工作流和任务从而高效构建数据仓库,请参见快速使用EMR Workflow。