在阿里云EMR中,地域与存储直接影响集群的性能和成本。合理选择地域可降低网络延迟、满足数据本地化合规要求,并优化资源成本。科学的存储配置(如HDFS、OSS-HDFS/OSS)则能提升数据读写效率、降低存储成本,同时保障数据可靠性。本文将从地域选择和存储规划两个核心维度出发,提供策略与关键考量,帮助您快速选型。
地域选择策略
地域选择需综合以下四大核心因素,确保业务与资源的最优匹配。EMR支持的地域,请参见支持地域。
核心因素 | 说明 |
核心因素 | 说明 |
数据本地化(核心优先级) |
|
EMR服务覆盖 |
|
ECS实例价格差异 | 不同地域的ECS实例定价存在差异,详情请参见ECS价格计算器。 |
应用拓扑优化 |
|
存储规划
存储架构选型
EMR支持存算一体(HDFS)和存算分离(OSS-HDFS/OSS)两种架构,需根据数据需求与成本选择。
存算一体(HDFS):集群内部存储,一般使用阿里云SSD,适合临时数据和Shuffle数据。如果选择本地HDFS作为EMR集群存储,需要考虑数据的多可用区容灾问题。
存算分离(OSS-HDFS/OSS):对象存储,适用于持久化数据存储,完全兼容HDFS文件系统接口。借助OSS跨可用区容灾能力,数据存储有更好的可靠性保证。
对比维度 | 存算分离(OSS-HDFS/OSS) | 存算一体(HDFS) |
对比维度 | 存算分离(OSS-HDFS/OSS) | 存算一体(HDFS) |
适用场景 |
| 高并发读写场景 |
数据可靠性 |
| 依赖副本机制(本地盘默认3副本,云盘默认2副本),满足短期可靠性,需配合定期备份策略。 |
数据持久性 |
| 数据随集群释放而删除。 |
扩展灵活性 | 计算资源与存储解耦,独立扩展计算节点。 | 计算资源与存储耦合,需同步扩缩容。 |
存储成本(示例) | 0.12元/GB/月(标准OSS存储) | 0.35元/GiB/月
|
运维复杂度 |
|
|
访问方式 |
详情请参见OSS/OSS-HDFS快速入门。 |
|
存储配置选型
在EMR中,实例节点上有系统盘和数据盘两种角色的磁盘。
磁盘角色 | 描述 | 支持的磁盘类型 |
磁盘角色 | 描述 | 支持的磁盘类型 |
系统盘 | 系统盘用于安装操作系统,不保存业务数据。 | |
数据盘 | 数据盘用于存储数据、本地化日志、任务的Shuffle等,其容量需根据存储架构(存算一体/存算分离)差异化评估,详情请参见存储容量评估。 |
磁盘类型
EMR集群支持使用以下两种类型的磁盘来存储数据。
云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品,采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。
按云盘性能不同,分为SSD云盘、高效云盘和ESSD云盘。
云盘类型 | 特点 | 应用场景 |
| 时延敏感的应用或者I/O密集型业务场景:
| |
SSD云盘 |
|
|
高效云盘 |
|
|
更多云盘与本地盘性能信息,请参见块存储性能。
本地盘是ECS实例所在物理机上的本地硬盘设备,为ECS实例提供本地存储访问能力。本地盘适用于对存储I/O性能、海量存储性价比有极高要求的业务场景。
使用场景
在EMR控制台的节点组配置中,当ECS实例类型选择大数据型、本地SSD时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。
本地SSD仅适用于核心节点(Core)或任务节点(Task)。
本地SSD有丢失数据的风险,作为大数据存储需要考虑备份策略。
有关本地盘的更多信息,请参见本地盘。
存储容量评估
在存储架构(存算一体/存算分离)选型完成后,您需根据业务数据规模与增长趋势,评估存储容量需求,确保磁盘配置满足业务诉求。
数据类型 | 说明 | 计算规则 |
数据类型 | 说明 | 计算规则 |
原始数据 | 业务直接产生的初始数据(如日志)。 | 存储空间 = 原始数据量 |
中间数据 | 处理过程中生成的临时数据(如ETL中间结果)。 | 存储空间 = 原始数据量 × 1.5(根据业务复杂度调整) |
结果数据 | 最终需存储的输出数据。 | 存储空间 = 原始数据量 × 10%~50%(根据业务需求调整) |
数据增长:规划时需考虑至少6个月的数据增长需求。
存算一体(HDFS)
数据盘容量需综合考虑原始数据、中间数据、结果数据及副本冗余(默认3副本)。
存算分离(OSS-HDFS/OSS)
通过对象存储实现业务数据持久化存储,数据盘仅用于临时计算缓存、本地化日志及任务的Shuffle数据,不保留业务数据。
支持地域
地域指数据中心所在的地理区域,资源创建成功后不能更换地域,当前支持以下地域。
地域名称 | 地域ID |
地域名称 | 地域ID |
华北1(青岛) | cn-qingdao |
华北2(北京) | cn-beijing |
华北3(张家口) | cn-zhangjiakou |
华北5(呼和浩特) | cn-huhehaote |
华北6(乌兰察布) | cn-wulanchabu |
华东1(杭州) | cn-hangzhou |
华东2(上海) | cn-shanghai |
华南1(深圳) | cn-shenzhen |
西南1(成都) | cn-chengdu |
中国香港 | cn-hongkong |
新加坡 | ap-southeast-1 |
马来西亚(吉隆坡) | ap-southeast-3 |
印度尼西亚(雅加达) | ap-southeast-5 |
日本(东京) | ap-northeast-1 |
美国(硅谷) | us-west-1 |
美国(弗吉尼亚) | us-east-1 |
德国(法兰克福) | eu-central-1 |
英国(伦敦) | eu-west-1 |
阿联酋(迪拜) | me-east-1 |
- 本页导读 (1)
- 地域选择策略
- 存储规划
- 存储架构选型
- 存储配置选型
- 支持地域