选择地域和存储

在阿里云EMR中,地域与存储直接影响集群的性能和成本。合理选择地域可降低网络延迟、满足数据本地化合规要求,并优化资源成本。科学的存储配置(如HDFS、OSS-HDFS/OSS)则能提升数据读写效率、降低存储成本,同时保障数据可靠性。本文将从地域选择和存储规划两个核心维度出发,提供策略与关键考量,帮助您快速选型。

地域选择策略

地域选择需综合以下四大核心因素,确保业务与资源的最优匹配。

核心因素

说明

数据本地化(优先考虑)

  • 推荐方案:集群地域与数据存储位置一致(如与OSS、RDS等数据源所在地域一致)。

  • 原因如下:

    • 降低网络成本:跨地域传输会产生额外费用。

    • 减少延迟:本地化部署可提升数据读写效率。

EMR服务覆盖

  • 服务可用性:通过EMR控制台确认目标地域是否支持EMR服务。

  • 组件支持:确定目标地域是否支持所需的关联云产品。比如有些地域不支持OSS-HDFS、DLF。

  • ECS实例规格支持:确定目标地域ECS实例规格是否支持。比如本地SSD机型仅在部分地域提供。

ECS实例价格差异

不同地域的ECS实例定价存在差异,详情请参见ECS价格计算器

应用拓扑优化

  • 混合云场景:选择与本地IDC专线接入点最近的地域,降低网络时延。

  • 多服务协同:确保EMRVPC、SLB、数据库等服务同地域部署,减少跨地域调用开销。

EMR支持地域:

  • 亚太 - 中国

    华东1(杭州)、华东2(上海)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港

  • 亚太 - 其他

    日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)

  • 欧洲与美国

    德国(法兰克福)、英国(伦敦)、美国(硅谷)、美国(弗吉尼亚)

  • 中东

    阿联酋(迪拜)

存储规划

存储架构选型

EMR支持存算分离(OSS-HDFS/OSS)和存算一体(HDFS)两种架构,需根据数据需求与成本选择。

对比维度

存算分离(OSS-HDFS/OSS)

存算一体(HDFS)

技术特点

  • 计算与存储资源独立扩展,数据持久化存储在OSS-HDFS/OSS中。

  • 完全兼容HDFS接口,便于无缝迁移和使用。

计算与存储耦合,数据存储在集群内部的HDFS中。

适用场景

  • 数据湖架构

  • 冷数据分析

低延迟读写场景

数据可靠性

  • OSS支持本地冗余存储和同城冗余存储,提供了跨可用区的高可靠性保障。

  • 由云存储底层保障,数据丢失风险极低。

  • 依赖副本机制(本地盘默认3副本,云盘默认2副本),局限于集群内部,缺乏跨区域容灾能力。

  • 存在一定的数据丢失风险,如硬件故障等。

数据持久性

  • 提供99.9999999999%(129)的数据持久性。

  • 集群释放后仍长期保留。

数据随集群释放而删除。

扩展灵活性

计算资源与存储解耦,独立扩展计算节点。

计算资源与存储耦合,需同步扩缩容。

  • 缩容,需逐台下线,周期长。

  • 扩容,需进行重平衡,消耗资源与时间。

存储成本(示例)

0.12元/GB/月(标准OSS存储)

说明

0.35元/GiB/月

说明

运维复杂度

  • 计算节点无状态,故障可快速替换。

  • 存储容量无限扩展,无需因数据增长手动调整集群规模。

  • DataNode故障时需手动执行数据重平衡。

  • 扩容和缩容时需人工调整集群规模。

访问方式

oss://bucket-name.endpoint/path/to/data

详情请参见OSS/OSS-HDFS快速入门

  • 访问HA集群的HDFS:hdfs://namespace/path

  • 访问非HA集群的HDFS:hdfs://namenode-host:port/path

存储配置选型

EMR中,实例节点上有系统盘和数据盘两种角色的磁盘。

磁盘角色

描述

支持的磁盘类型

系统盘

系统盘用于安装操作系统,不保存业务数据。

云盘

数据盘

数据盘用于存储数据、本地化日志、任务的Shuffle等,其容量需根据存储架构(存算一体/存算分离)差异化评估,详情请参见存储容量评估

说明

存储容量相同时,多盘配置比单盘更能提升组件可用性。部分组件在多盘环境下具备容错能力,即使个别磁盘故障,也不会影响整体功能。

磁盘类型

EMR集群支持使用以下两种类型的磁盘来存储数据。

云盘

云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。

按云盘性能不同,分为SSD云盘、高效云盘和ESSD云盘。

云盘类型

特点

应用场景

ESSD云盘

  • IOPS和吞吐量

  • 毫秒级延迟(0.2ms)

  • 高可靠性

  • 支持多性能等级(PL0-PL3)

    说明

    选择ESSD云盘的性能等级,请参见ESSD云盘

时延敏感的应用或者I/O密集型业务场景:

  • 大型OLTP数据库

  • NoSQL数据库

  • Elasticsearch分布式日志

SSD云盘

  • 较高IOPS和吞吐量

  • 毫秒级延迟(0.5~2ms)

  • 高可靠性

  • I/O密集型应用

  • 中小型关系数据库和NoSQL数据库

高效云盘

  • 中等IOPS和吞吐量

  • 毫秒级延迟(1~3ms)

  • 高可靠性

  • 开发与测试业务

  • 作为系统盘

说明

更多云盘与本地盘性能信息,请参见块存储性能

本地盘

本地盘ECS实例所在物理机上的本地硬盘设备,为ECS实例提供本地存储访问能力。本地盘适用于对存储I/O性能、海量存储性价比有极高要求的业务场景。

使用场景

EMR控制台的节点组配置中,当附录:ECS实例类型选择大数据型本地SSD时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。

说明
  • 本地盘仅适用于核心节点(Core)或任务节点(Task)。

  • 本地盘有丢失数据的风险,作为大数据存储需要考虑备份策略。

存储容量评估

在存储架构(存算一体/存算分离)选型完成后,您需根据业务数据规模与增长趋势,评估存储容量需求,确保磁盘配置满足业务诉求。

数据类型

说明

计算规则

原始数据

业务直接产生的初始数据(如日志)。

存储空间 = 原始数据量

中间数据

处理过程中生成的临时数据(如ETL中间结果)。

存储空间 = 原始数据量 × 1.5(根据业务复杂度调整)

结果数据

最终需存储的输出数据。

存储空间 = 原始数据量 × 10%~50%(根据业务需求调整)

数据增长:规划时需考虑至少6个月的数据增长需求。

  • 存算一体(HDFS)

    数据盘容量需综合考虑原始数据、中间数据、结果数据及副本冗余(默认3副本)。

  • 存算分离(OSS-HDFS/OSS)

    通过对象存储实现业务数据持久化存储,数据盘仅用于临时计算缓存、本地化日志及任务的Shuffle数据,不保留业务数据。