什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。

产品架构

EMR主要由四部分组成,分别为集成的阿里云产品、开源组件、自研组件和集群管理。其中EMR提供的组件类型及使用场景,请参见组件概览应用场景

image
  • 集成的阿里云产品

    • 基于阿里云ECS、神龙等多种底层计算资源部署,同时也支持容器化部署。

    • 数据可以存储在阿里云OSS上。

    • EMRDataWorks集成,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。

    • EMR Workflow提供全托管的工作流和任务调度服务。

  • 开源组件

    集成Apache社区开源大数据组件,涵盖数据集成、数据存储、资源管理、计算引擎、数据开发、数据服务等多个领域,方便快速搭建高效可靠的数据处理和管理平台。

  • 自研组件

    为了让开源大数据组件和服务更好地运行在阿里云基础设施上,EMR提供的自研组件如下:

    • OSS-HDFS:兼容Hadoop分布式文件系统接口的对象存储解决方案,支持大数据计算任务通过标准HDFS协议直接访问阿里云OSS的数据。

    • JindoCache:分布式缓存解决方案,通过在内存中缓存数据块,提高数据读取性能并减少对底层存储系统的压力。

    • DLF-Auth:数据湖构建DLF产品提供,可以开启数据湖构建DLF的数据权限功能。

  • 集群管理

    • 快速创建、扩容集群能力,支持弹性伸缩部署。

    • 集群配置管理、服务管理,提供节点和服务的可视化运维能力。

    • 多维度指标监控、集群日志与分析、监控与报警能力。

产品优势

EMR为您提供灵活易管理的企业级开源大数据服务。与自建Hadoop集群对比信息可参见EMR与自建Hadoop集群对比优势

  • 稳定可靠的开源组件

    • 100%采用社区开源组件,随开源版本升级迭代,详情请参见EMR发行版本服务差异

    • 适配开源组件,避免开源组件之间的版本兼容性问题。

    • 基于开源组件,优化和增强阿里云部署环境,性能远高于开源版本。

  • 易用性

    • 分钟级搭建大数据计算环境,支持一键调整计算资源规模,无需人工部署和启动服务。

    • 完善的监控和告警体系,支持智能诊断分析,大幅缩减排障路径,提升运维效率。

  • 节约成本

    • 计算资源按需使用,降低闲置算力成本。

    • 自动数据冷热分层存储,降低单位存储成本。

    • 丰富的运维辅助工具、智能诊断分析,便捷管理大数据平台,降低运维成本。

  • 弹性

    • 集群资源可根据时间周期或集群负载动态自动调整。

    • 分钟级弹性伸缩,支持多种弹性资源类型。

  • 深度整合

    • 支持基于阿里云ECSACK部署EMR集群,支持ECS多种实例规格,详情请参见ECS实例说明

    • 集成在DataWorks,您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。

    • 集成了数据湖构建(Data Lake Formation),实现数据湖场景下多引擎的统一元数据管理。

产品计费

EMR费用由E-MapReduce服务费用、ECS费用及节点的外网流量费用组成。如果您在使用EMR过程中还用到了其他云产品,如OSS、数据湖构建、Workflow等,相关费用请参见对应产品的计费文档。

EMR on ECS支持的计费方式如下:

  • 包年包月:按一定时长购买资源,先付费后使用。通过包年包月,您可以提前预留资源,同时享受价格优惠,帮您节省支出。

  • 按量付费:按需开通和释放资源,先使用后付费。通过按量付费,您可以灵活使用,无需提前购买大量资源。

其中节点的外网流量费用与EMR集群使用的计费方式无关,默认使用按量计费。

详细的计费规则,请参见产品计费

快速开始

相关文档