本文为您介绍如何通过阿里云账号登录E-MapReduce控制台,基于Kubernetes创建集群。
前提条件
已完成添加AliyunOSSFullAccess和AliyunDLFFullAccess权限,详情请参见授予OSS和DLF权限。
已创建Kubernetes集群,详情请参见创建Kubernetes专有版集群或创建Kubernetes托管版集群。
已创建节点池,详情请参见创建节点池。
已开通对象存储OSS,详情请参见开通OSS服务。
操作步骤
在EMR on ACK页面,单击创建集群。
在EMR on ACK页面,完成集群相关配置。
参数
描述
地域
创建的集群会在对应的地域内,一旦创建就不能修改。
集群类型
支持以下集群类型:
Shuffle Service:是阿里云EMR在优化计算引擎的Shuffle操作上,推出的扩展组件。Shuffle Service通过提供远端Shuffle服务,使得Spark作业可以运行在无本地盘的节点上,并完美支持了动态资源,非常适合ACK环境下的Spark集群,详情请参见Celeborn。
重要当创建Shuffle Service集群类型时,所关联ACK集群的专属节点池或节点的实例规格必须均为大数据型或者本地SSD,否则部署RSS失败。
说明在阿里云EMR for ACK的使用场景中,针对Shuffle Service类型的集群,系统内置了一个名为“rss-pvc-clean”的自动化清理任务。这是一个预设的、用于定期或在特定条件下清理不再使用的PVC资源的Job任务,旨在优化存储资源管理,避免无效或冗余数据持久化导致的存储空间浪费问题。
Presto:是基于内存的分布式SQL交互式查询引擎。
支持多种数据源,适合PB级海量数据的复杂分析,以及跨数据源的查询。
Spark:是通用的分布式大数据处理引擎,提供了ETL、离线批处理和数据建模等能力。
重要创建Spark集群后,如果您需要关联集群,则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如,EMR-5.x-ack版本的Spark集群只能关联EMR-5.x-ack版本的Shuffle Service集群。
Flink:是一个在有界或无界数据流上进行有状态计算分布式处理的计算引擎。Flink on Ack基于EMR on Ack底座与社区Flink Kubernetes Operator 1.0.1版本开发,默认使用Flink官方团队推出的企业版内核,旨在为用户提供开箱即用的Flink on K8s体验。
Data Science:请参见创建Data Science集群。
产品版本
默认最新的软件版本。
组件版本
展示集群类型下的组件及组件版本信息。
ACK集群
选择已有的ACK集群,或者在容器服务ACK控制台新建ACK集群。
单击配置专属节点,可以配置EMR专属节点。配置专属节点可以对节点池或节点打上EMR专属的污点和标签,被配置的节点池或节点只能用于EMR。
说明推荐您使用节点池的方式来配置专属节点,如果没有节点池,请创建节点池,详情请参见创建节点池。
OSS Bucket
选择已有的Bucket,或者在对象存储OSS控制台新建Bucket。
集群名称
集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、中划线(-)和下划线(_)。
单击创建。
当集群状态显示为运行中时,表示集群创建成功。