选择地域和存储_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

在阿里云EMR中，地域与存储直接影响集群的性能和成本。合理选择地域可降低网络延迟、满足数据本地化合规要求，并优化资源成本。科学的存储配置（如HDFS、OSS-HDFS/OSS）则能提升数据读写效率、降低存储成本，同时保障数据可靠性。本文将从地域选择和存储规划两个核心维度出发，提供策略与关键考量，帮助您快速选型。

地域选择策略

地域选择需综合以下四大核心因素，确保业务与资源的最优匹配。

核心因素	说明
数据本地化（优先考虑）	推荐方案：集群地域与数据存储位置一致（如与OSS、RDS等数据源所在地域一致）。原因如下：降低网络成本：跨地域传输会产生额外费用。减少延迟：本地化部署可提升数据读写效率。
EMR服务覆盖	服务可用性：通过EMR控制台确认目标地域是否支持EMR服务。组件支持：确定目标地域是否支持所需的关联云产品。比如有些地域不支持OSS-HDFS、DLF。 ECS实例规格支持：确定目标地域ECS实例规格是否支持。比如本地SSD机型仅在部分地域提供。
ECS实例价格差异	不同地域的ECS实例定价存在差异，详情请参见ECS价格计算器。
应用拓扑优化	混合云场景：选择与本地IDC专线接入点最近的地域，降低网络时延。多服务协同：确保EMR与VPC、SLB、数据库等服务同地域部署，减少跨地域调用开销。

EMR支持地域：

亚太 - 中国
华东1（杭州）、华东2（上海）、华北1（青岛）、华北2（北京）、华北3（张家口）、华北5（呼和浩特）、华北6（乌兰察布）、华南1（深圳）、西南1（成都）、中国香港
亚太 - 其他
日本（东京）、新加坡、马来西亚（吉隆坡）、印度尼西亚（雅加达）
欧洲与美国
德国（法兰克福）、英国（伦敦）、美国（硅谷）、美国（弗吉尼亚）
中东
阿联酋（迪拜）

存储规划

存储架构选型

EMR支持存算分离（OSS-HDFS/OSS）和存算一体（HDFS）两种架构，需根据数据需求与成本选择。

对比维度	存算分离（OSS-HDFS/OSS）	存算一体（HDFS）
技术特点	计算与存储资源独立扩展，数据持久化存储在OSS-HDFS/OSS中。完全兼容HDFS接口，便于无缝迁移和使用。	计算与存储耦合，数据存储在集群内部的HDFS中。
适用场景	数据湖架构冷数据分析	低延迟读写场景
数据可靠性	OSS支持本地冗余存储和同城冗余存储，提供了跨可用区的高可靠性保障。由云存储底层保障，数据丢失风险极低。	依赖副本机制（本地盘默认3副本，云盘默认2副本），局限于集群内部，缺乏跨区域容灾能力。存在一定的数据丢失风险，如硬件故障等。
数据持久性	提供99.9999999999%（12个9）的数据持久性。集群释放后仍长期保留。	数据随集群释放而删除。
扩展灵活性	计算资源与存储解耦，独立扩展计算节点。	计算资源与存储耦合，需同步扩缩容。缩容，需逐台下线，周期长。扩容，需进行重平衡，消耗资源与时间。
存储成本（示例）	0.12元/GB/月（标准OSS存储）说明 OSS-HDFS除用户数据外，还会生成辅助数据，并产生相应的OSS存储容量计费，请参见存储空间占用情况。关于OSS产品的计费项，请参见计费概述。 OSS产品定价，请参见OSS产品定价。	0.35元/GiB/月说明关于块存储的计费项，请参见块存储计费。块存储价格，请参见云服务器ECS产品定价。
运维复杂度	计算节点无状态，故障可快速替换。存储容量无限扩展，无需因数据增长手动调整集群规模。	DataNode故障时需手动执行数据重平衡。扩容和缩容时需人工调整集群规模。
访问方式	`oss://bucket-name.endpoint/path/to/data`。详情请参见OSS/OSS-HDFS快速入门。	访问HA集群的HDFS：`hdfs://namespace/path`。访问非HA集群的HDFS：`hdfs://namenode-host:port/path`。

存储配置选型

在EMR中，实例节点上有系统盘和数据盘两种角色的磁盘。

磁盘角色	描述	支持的磁盘类型
系统盘	系统盘用于安装操作系统，不保存业务数据。	云盘
数据盘	数据盘用于存储数据、本地化日志、任务的Shuffle等，其容量需根据存储架构（存算一体/存算分离）差异化评估，详情请参见存储容量评估。说明存储容量相同时，多盘配置比单盘更能提升组件可用性。部分组件在多盘环境下具备容错能力，即使个别磁盘故障，也不会影响整体功能。	云盘本地盘

磁盘类型

EMR集群支持使用以下两种类型的磁盘来存储数据。

云盘

云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品，采用分布式三副本机制，为ECS实例提供99.9999999%的数据可靠性保证。

按云盘性能不同，分为SSD云盘、高效云盘和ESSD云盘。

云盘类型	特点	应用场景
ESSD云盘	高IOPS和吞吐量毫秒级延迟（0.2ms）高可靠性支持多性能等级（PL0-PL3）说明选择ESSD云盘的性能等级，请参见ESSD云盘。	时延敏感的应用或者I/O密集型业务场景：大型OLTP数据库 NoSQL数据库 Elasticsearch分布式日志
SSD云盘	较高IOPS和吞吐量毫秒级延迟（0.5~2ms）高可靠性	I/O密集型应用中小型关系数据库和NoSQL数据库
高效云盘	中等IOPS和吞吐量毫秒级延迟（1~3ms）高可靠性	开发与测试业务作为系统盘

说明

更多云盘与本地盘性能信息，请参见块存储性能。

本地盘

本地盘是ECS实例所在物理机上的本地硬盘设备，为ECS实例提供本地存储访问能力。本地盘适用于对存储I/O性能、海量存储性价比有极高要求的业务场景。

使用场景

在EMR控制台的节点组配置中，当附录：ECS实例类型选择大数据型、本地SSD时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。

说明

本地盘仅适用于核心节点（Core）或任务节点（Task）。
本地盘有丢失数据的风险，作为大数据存储需要考虑备份策略。

存储容量评估

在存储架构（存算一体/存算分离）选型完成后，您需根据业务数据规模与增长趋势，评估存储容量需求，确保磁盘配置满足业务诉求。

数据类型	说明	计算规则
原始数据	业务直接产生的初始数据（如日志）。	存储空间 = 原始数据量
中间数据	处理过程中生成的临时数据（如ETL中间结果）。	存储空间 = 原始数据量 × 1.5（根据业务复杂度调整）
结果数据	最终需存储的输出数据。	存储空间 = 原始数据量 × 10%~50%（根据业务需求调整）

数据增长：规划时需考虑至少6个月的数据增长需求。

存算一体（HDFS）
数据盘容量需综合考虑原始数据、中间数据、结果数据及副本冗余（默认3副本）。
存算分离（OSS-HDFS/OSS）
通过对象存储实现业务数据持久化存储，数据盘仅用于临时计算缓存、本地化日志及任务的Shuffle数据，不保留业务数据。