开源大数据平台-EMR on ECS-开源大数据平台 E-MapReduce-阿里云

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。

产品架构

EMR主要由四部分组成，分别为集成的阿里云产品、开源组件、自研组件和集群管理。其中EMR提供的组件类型及使用场景，请参见组件概览和应用场景。

集成的阿里云产品
- EMR可以部署在阿里云ECS上。
- 数据可以存储在阿里云OSS上。
- EMR与DataWorks集成，您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。
- EMR Workflow提供全托管的工作流和任务调度服务。
开源组件
集成Apache社区开源大数据组件，涵盖数据集成、数据存储、资源管理、计算引擎、数据开发、数据服务等多个领域，方便快速搭建高效可靠的数据处理和管理平台。
自研组件
为了让开源大数据组件和服务更好地运行在阿里云基础设施上，EMR提供的自研组件如下：
- OSS-HDFS：兼容Hadoop分布式文件系统接口的对象存储解决方案，支持大数据计算任务通过标准HDFS协议直接访问阿里云OSS的数据。
- JindoCache：分布式缓存解决方案，通过在内存中缓存数据块，提高数据读取性能并减少对底层存储系统的压力。
- DLF-Auth：数据湖构建DLF产品提供，可以开启数据湖构建DLF的数据权限功能。
集群管理
- 快速创建、扩容集群能力，支持弹性伸缩部署。
- 集群配置管理、服务管理，提供节点和服务的可视化运维能力。
- 多维度指标监控、集群日志与分析、监控与报警能力。

EMR为您提供灵活易管理的企业级开源大数据服务。与自建Hadoop集群对比信息可参见EMR与自建Hadoop集群对比优势。

稳定可靠的开源组件
- 100%采用社区开源组件，随开源版本升级迭代，详情请参见发行版本。
- 适配开源组件，避免开源组件之间的版本兼容性问题。
- 基于开源组件，优化和增强阿里云部署环境，性能远高于开源版本。
易用性
- 分钟级搭建大数据计算环境，支持一键调整计算资源规模，无需人工部署和启动服务。
- 完善的监控和告警体系，支持智能诊断分析，大幅缩减排障路径，提升运维效率。
节约成本
- 计算资源按需使用，降低闲置算力成本。
- 自动数据冷热分层存储，降低单位存储成本。
- 丰富的运维辅助工具、智能诊断分析，便捷管理大数据平台，降低运维成本。
弹性
- 集群资源可根据时间周期或集群负载动态自动调整。
- 分钟级弹性伸缩，支持多种弹性资源类型。
深度整合
- 支持基于阿里云ECS和ACK部署EMR集群，支持ECS多种实例规格，详情请参见ECS实例说明。
- 集成在DataWorks，您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。
- 集成了数据湖构建（Data Lake Formation），实现数据湖场景下多引擎的统一元数据管理。

EMR费用由E-MapReduce服务费用和ECS产品费用组成。如果您在使用EMR过程中还用到了其他云产品，如OSS、数据湖构建、Workflow等，相关费用请参见对应产品的计费文档。

EMR on ECS支持的计费方式如下：

其中节点的公网流量费用与EMR集群使用的计费方式无关，默认使用按量计费。

详细的计费规则，请参见产品计费。