EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。
产品架构
EMR主要由四部分组成,分别为集成的阿里云产品、开源组件、自研组件和集群管理。其中EMR提供的组件类型及使用场景,请参见组件概览和应用场景。
集成的阿里云产品
基于阿里云ECS、神龙等多种底层计算资源部署,同时也支持容器化部署。
数据可以存储在阿里云OSS上。
EMR与DataWorks集成,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。
EMR Workflow提供全托管的工作流和任务调度服务。
开源组件
集成Apache社区开源大数据组件,涵盖数据集成、数据存储、资源管理、计算引擎、数据开发、数据服务等多个领域,方便快速搭建高效可靠的数据处理和管理平台。
自研组件
为了让开源大数据组件和服务更好地运行在阿里云基础设施上,EMR提供的自研组件如下:
OSS-HDFS:兼容Hadoop分布式文件系统接口的对象存储解决方案,支持大数据计算任务通过标准HDFS协议直接访问阿里云OSS的数据。
JindoCache:分布式缓存解决方案,通过在内存中缓存数据块,提高数据读取性能并减少对底层存储系统的压力。
DLF-Auth:数据湖构建DLF产品提供,可以开启数据湖构建DLF的数据权限功能。
集群管理
快速创建、扩容集群能力,支持弹性伸缩部署。
集群配置管理、服务管理,提供节点和服务的可视化运维能力。
多维度指标监控、集群日志与分析、监控与报警能力。
产品优势
EMR为您提供灵活易管理的企业级开源大数据服务。与自建Hadoop集群对比信息可参见EMR与自建Hadoop集群对比优势。
稳定可靠的开源组件
100%采用社区开源组件,随开源版本升级迭代,详情请参见EMR发行版本服务差异。
适配开源组件,避免开源组件之间的版本兼容性问题。
基于开源组件,优化和增强阿里云部署环境,性能远高于开源版本。
易用性
分钟级搭建大数据计算环境,支持一键调整计算资源规模,无需人工部署和启动服务。
完善的监控和告警体系,支持智能诊断分析,大幅缩减排障路径,提升运维效率。
节约成本
计算资源按需使用,降低闲置算力成本。
自动数据冷热分层存储,降低单位存储成本。
丰富的运维辅助工具、智能诊断分析,便捷管理大数据平台,降低运维成本。
弹性
集群资源可根据时间周期或集群负载动态自动调整。
分钟级弹性伸缩,支持多种弹性资源类型。
深度整合
支持基于阿里云ECS和ACK部署EMR集群,支持ECS多种实例规格,详情请参见ECS实例说明。
集成在DataWorks,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。
集成了数据湖构建(Data Lake Formation),实现数据湖场景下多引擎的统一元数据管理。
产品计费
EMR费用由E-MapReduce服务费用、ECS费用及节点的外网流量费用组成。如果您在使用EMR过程中还用到了其他云产品,如OSS、数据湖构建、Workflow等,相关费用请参见对应产品的计费文档。
EMR on ECS支持的计费方式如下:
包年包月:按一定时长购买资源,先付费后使用。通过包年包月,您可以提前预留资源,同时享受价格优惠,帮您节省支出。
按量付费:按需开通和释放资源,先使用后付费。通过按量付费,您可以灵活使用,无需提前购买大量资源。
其中节点的外网流量费用与EMR集群使用的计费方式无关,默认使用按量计费。
详细的计费规则,请参见产品计费。
快速开始
通过EMR控制台快速创建集群并执行作业,请参见E-MapReduce快速入门。
在DataWorks快速使用EMR集群,完成一站式数据湖开发和治理,请参见DataWorks on EMR快速入门。
通过EMR Workflow可视化地管理工作流和任务从而高效构建数据仓库,请参见快速使用EMR Workflow。