选择地域和存储

更新时间:2025-04-11 08:55:16

在阿里云EMR中,地域与存储直接影响集群的性能和成本。合理选择地域可降低网络延迟、满足数据本地化合规要求,并优化资源成本。科学的存储配置(如HDFS、OSS-HDFS/OSS)则能提升数据读写效率、降低存储成本,同时保障数据可靠性。本文将从地域选择和存储规划两个核心维度出发,提供策略与关键考量,帮助您快速选型。

地域选择策略

地域选择需综合以下四大核心因素,确保业务与资源的最优匹配。EMR支持的地域,请参见支持地域

核心因素

说明

核心因素

说明

数据本地化(核心优先级)

  • 推荐方案:集群地域与数据存储位置一致(如与OSS、RDS等数据源所在地域一致)。

  • 原因如下:

    • 降低网络成本:跨地域传输会产生额外费用。

    • 减少延迟:本地化部署可提升数据读写效率。

EMR服务覆盖

  • 服务可用性:通过EMR控制台确认目标地域是否支持EMR服务。

  • 组件支持:确定目标地域是否支持所需的关联云产品。比如有些地域不支持OSS-HDFS、DLF。

  • ECS实例规格支持:确定目标地域ECS实例规格是否支持。比如本地SSD机型仅在部分地域提供。

ECS实例价格差异

不同地域的ECS实例定价存在差异,详情请参见ECS价格计算器

应用拓扑优化

  • 混合云场景:选择与本地IDC专线接入点最近的地域,降低网络时延。

  • 多服务协同:确保EMRVPC、SLB、数据库等服务同地域部署,减少跨地域调用开销。

存储规划

存储架构选型

EMR支持存算一体(HDFS)和存算分离(OSS-HDFS/OSS)两种架构,需根据数据需求与成本选择。

  • 存算一体(HDFS):集群内部存储,一般使用阿里云SSD,适合临时数据和Shuffle数据。如果选择本地HDFS作为EMR集群存储,需要考虑数据的多可用区容灾问题。

  • 存算分离(OSS-HDFS/OSS):对象存储,适用于持久化数据存储,完全兼容HDFS文件系统接口。借助OSS跨可用区容灾能力,数据存储有更好的可靠性保证。

对比维度

存算分离(OSS-HDFS/OSS)

存算一体(HDFS)

对比维度

存算分离(OSS-HDFS/OSS)

存算一体(HDFS)

适用场景

  • 数据湖架构

  • 冷数据分析

高并发读写场景

数据可靠性

  • OSS支持本地冗余存储和同城冗余存储。

  • OSS-HDFS支持本地冗余存储。

依赖副本机制(本地盘默认3副本,云盘默认2副本),满足短期可靠性,需配合定期备份策略。

数据持久性

  • 提供99.9999999999%(129)的数据持久性。

  • 集群释放后仍长期保留。

数据随集群释放而删除。

扩展灵活性

计算资源与存储解耦,独立扩展计算节点。

计算资源与存储耦合,需同步扩缩容。

存储成本(示例)

0.12元/GB/月(标准OSS存储)

说明

0.35元/GiB/月

说明

运维复杂度

  • 计算节点无状态,故障可快速替换。

  • 存储容量无限扩展,无需因数据增长手动调整集群规模。

  • DataNode故障时需手动执行数据重平衡。

  • 扩容和缩容时需人工调整集群规模。

访问方式

oss://bucket-name/path/to/data

详情请参见OSS/OSS-HDFS快速入门

  • 访问当前EMR集群的HDFS:hdfs:///path 或 /path

  • 访问跨集群的HDFS:hdfs://namenode-host:port/path

存储配置选型

EMR中,实例节点上有系统盘和数据盘两种角色的磁盘。

磁盘角色

描述

支持的磁盘类型

磁盘角色

描述

支持的磁盘类型

系统盘

系统盘用于安装操作系统,不保存业务数据。

云盘

数据盘

数据盘用于存储数据、本地化日志、任务的Shuffle等,其容量需根据存储架构(存算一体/存算分离)差异化评估,详情请参见存储容量评估

磁盘类型

EMR集群支持使用以下两种类型的磁盘来存储数据。

云盘
本地盘

云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。

按云盘性能不同,分为SSD云盘、高效云盘和ESSD云盘。

云盘类型

特点

应用场景

ESSD云盘

  • IOPS和吞吐量

  • 毫秒级延迟(0.2ms)

  • 高可靠性

  • 支持多性能等级(PL0-PL3)

    说明

    选择ESSD云盘的性能等级,请参见ESSD云盘

时延敏感的应用或者I/O密集型业务场景:

  • 大型OLTP数据库

  • NoSQL数据库

  • Elasticsearch分布式日志

SSD云盘

  • 较高IOPS和吞吐量

  • 毫秒级延迟(0.5~2ms)

  • 高可靠性

  • I/O密集型应用

  • 中小型关系数据库和NoSQL数据库

高效云盘

  • 中等IOPS和吞吐量

  • 毫秒级延迟(1~3ms)

  • 高可靠性

  • 开发与测试业务

  • 作为系统盘

说明

更多云盘与本地盘性能信息,请参见块存储性能

本地盘是ECS实例所在物理机上的本地硬盘设备,为ECS实例提供本地存储访问能力。本地盘适用于对存储I/O性能、海量存储性价比有极高要求的业务场景。

使用场景

EMR控制台的节点组配置中,当ECS实例类型选择大数据型本地SSD时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。

说明
  • 本地SSD仅适用于核心节点(Core)或任务节点(Task)。

  • 本地SSD有丢失数据的风险,作为大数据存储需要考虑备份策略。

  • 有关本地盘的更多信息,请参见本地盘

存储容量评估

在存储架构(存算一体/存算分离)选型完成后,您需根据业务数据规模与增长趋势,评估存储容量需求,确保磁盘配置满足业务诉求。

数据类型

说明

计算规则

数据类型

说明

计算规则

原始数据

业务直接产生的初始数据(如日志)。

存储空间 = 原始数据量

中间数据

处理过程中生成的临时数据(如ETL中间结果)。

存储空间 = 原始数据量 × 1.5(根据业务复杂度调整)

结果数据

最终需存储的输出数据。

存储空间 = 原始数据量 × 10%~50%(根据业务需求调整)

数据增长:规划时需考虑至少6个月的数据增长需求。

  • 存算一体(HDFS)

    数据盘容量需综合考虑原始数据、中间数据、结果数据及副本冗余(默认3副本)。

  • 存算分离(OSS-HDFS/OSS)

    通过对象存储实现业务数据持久化存储,数据盘仅用于临时计算缓存、本地化日志及任务的Shuffle数据,不保留业务数据。

支持地域

地域指数据中心所在的地理区域,资源创建成功后不能更换地域,当前支持以下地域。

地域名称

地域ID

地域名称

地域ID

华北1(青岛)

cn-qingdao

华北2(北京)

cn-beijing

华北3(张家口)

cn-zhangjiakou

华北5(呼和浩特)

cn-huhehaote

华北6(乌兰察布)

cn-wulanchabu

华东1(杭州)

cn-hangzhou

华东2(上海)

cn-shanghai

华南1(深圳)

cn-shenzhen

西南1(成都)

cn-chengdu

中国香港

cn-hongkong

新加坡

ap-southeast-1

马来西亚(吉隆坡)

ap-southeast-3

印度尼西亚(雅加达)

ap-southeast-5

日本(东京)

ap-northeast-1

美国(硅谷)

us-west-1

美国(弗吉尼亚)

us-east-1

德国(法兰克福)

eu-central-1

英国(伦敦)

eu-west-1

阿联酋(迪拜)

me-east-1

  • 本页导读 (1)
  • 地域选择策略
  • 存储规划
  • 存储架构选型
  • 存储配置选型
  • 支持地域
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等