在阿里云EMR中,地域与存储直接影响集群的性能和成本。合理选择地域可降低网络延迟、满足数据本地化合规要求,并优化资源成本。科学的存储配置(如HDFS、OSS-HDFS/OSS)则能提升数据读写效率、降低存储成本,同时保障数据可靠性。本文将从地域选择和存储规划两个核心维度出发,提供策略与关键考量,帮助您快速选型。
地域选择策略
地域选择需综合以下四大核心因素,确保业务与资源的最优匹配。
核心因素 | 说明 |
数据本地化(优先考虑) |
|
EMR服务覆盖 |
|
ECS实例价格差异 | 不同地域的ECS实例定价存在差异,详情请参见ECS价格计算器。 |
应用拓扑优化 |
|
EMR支持地域:
亚太 - 中国
华东1(杭州)、华东2(上海)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港
亚太 - 其他
日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)
欧洲与美国
德国(法兰克福)、英国(伦敦)、美国(硅谷)、美国(弗吉尼亚)
中东
阿联酋(迪拜)
存储规划
存储架构选型
EMR支持存算分离(OSS-HDFS/OSS)和存算一体(HDFS)两种架构,需根据数据需求与成本选择。
对比维度 | 存算分离(OSS-HDFS/OSS) | 存算一体(HDFS) |
技术特点 |
| 计算与存储耦合,数据存储在集群内部的HDFS中。 |
适用场景 |
| 低延迟读写场景 |
数据可靠性 |
|
|
数据持久性 |
| 数据随集群释放而删除。 |
扩展灵活性 | 计算资源与存储解耦,独立扩展计算节点。 | 计算资源与存储耦合,需同步扩缩容。
|
存储成本(示例) | 0.12元/GB/月(标准OSS存储) | 0.35元/GiB/月 说明
|
运维复杂度 |
|
|
访问方式 |
详情请参见OSS/OSS-HDFS快速入门。 |
|
存储配置选型
在EMR中,实例节点上有系统盘和数据盘两种角色的磁盘。
磁盘角色 | 描述 | 支持的磁盘类型 |
系统盘 | 系统盘用于安装操作系统,不保存业务数据。 | |
数据盘 | 数据盘用于存储数据、本地化日志、任务的Shuffle等,其容量需根据存储架构(存算一体/存算分离)差异化评估,详情请参见存储容量评估。 说明 存储容量相同时,多盘配置比单盘更能提升组件可用性。部分组件在多盘环境下具备容错能力,即使个别磁盘故障,也不会影响整体功能。 |
磁盘类型
EMR集群支持使用以下两种类型的磁盘来存储数据。
云盘
云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。
按云盘性能不同,分为SSD云盘、高效云盘和ESSD云盘。
云盘类型 | 特点 | 应用场景 |
| 时延敏感的应用或者I/O密集型业务场景:
| |
SSD云盘 |
|
|
高效云盘 |
|
|
更多云盘与本地盘性能信息,请参见块存储性能。
本地盘
本地盘是ECS实例所在物理机上的本地硬盘设备,为ECS实例提供本地存储访问能力。本地盘适用于对存储I/O性能、海量存储性价比有极高要求的业务场景。
使用场景
在EMR控制台的节点组配置中,当附录:ECS实例类型选择大数据型、本地SSD时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。
本地盘仅适用于核心节点(Core)或任务节点(Task)。
本地盘有丢失数据的风险,作为大数据存储需要考虑备份策略。
存储容量评估
在存储架构(存算一体/存算分离)选型完成后,您需根据业务数据规模与增长趋势,评估存储容量需求,确保磁盘配置满足业务诉求。
数据类型 | 说明 | 计算规则 |
原始数据 | 业务直接产生的初始数据(如日志)。 | 存储空间 = 原始数据量 |
中间数据 | 处理过程中生成的临时数据(如ETL中间结果)。 | 存储空间 = 原始数据量 × 1.5(根据业务复杂度调整) |
结果数据 | 最终需存储的输出数据。 | 存储空间 = 原始数据量 × 10%~50%(根据业务需求调整) |
数据增长:规划时需考虑至少6个月的数据增长需求。
存算一体(HDFS)
数据盘容量需综合考虑原始数据、中间数据、结果数据及副本冗余(默认3副本)。
存算分离(OSS-HDFS/OSS)
通过对象存储实现业务数据持久化存储,数据盘仅用于临时计算缓存、本地化日志及任务的Shuffle数据,不保留业务数据。