本节介绍如何使用Databricks数据洞察控制台创建集群。
前提条件
已注册阿里云账号,并完成实名认证。详情请参见阿里云账号注册流程。
操作步骤
使用阿里云账号登录Databricks数据洞察控制台。
在Databricks数据洞察控制台页面,选择所在的地域(Region)。
创建的集群将会在对应的地域内,一旦创建后不能修改。
在左侧导航栏中,单击集群。
在集群管理页面,单击创建集群。
设置基础信息。
参数
描述
集群名称
集群的名字。长度限制为1~64个字符,仅可使用中文、字母、数字、连接号(-)和下划线(_)
Knox账号
为了更好的安全性,Web UI访问(如Zeppelin Notebook、Spark UI、Ganglia UI)需要Knox账号和密码,来保障您的账号安全。若无RAM子账号,请前往RAM控制台进行创建
Knox密码
两次确认Knox密码,登录Web UI时候使用,请您牢记
Databricks Runtime版本
Databricks Runtime的版本信息,版本号与Databricks官方保持一致,包含Scala和Spark的版本。版本详情请参见Databricks Runtime版本说明
Python版本
默认版本为Python 3
付费类型
Databricks数据洞察支持包年包月和按量付费两种付费类型
可用区
可用区为在同一地域下的不同物理区域,可用区之间内网互通。
一般选择默认的可用区即可,亦可选择与已购阿里云产品部署在同一个可用区。
ECS实例
由Master和Worker两种类型的节点组成:
Master节点:主要负责集群资源管理和作业调度。默认节点个数为1。
Worker节点:集群的计算节点,主要负责作业的执行。最小节点数量为3。
元数据选择
推荐选择数据湖元数据。
数据湖元数据:表示元数据存储在数据湖中。如果没有开通数据湖构建服务,需要单击请前往开通。参见数据湖元数据管理
统一meta数据库:表示元数据存储在集群本地环境的MySQL数据库中
独立RDS MySQL:表示使用自建的阿里云RDS作为元数据库,更多信息请参见
设置高级信息。
高级信息包括如下两方面:
Spark设置
参数
描述
Spark配置
输入Spark的配置信息。配置的属性值将会更改到spark-defaults.conf文件中。支持的配置列表为spark.apache.org/docs/latest/configuration.html#spark-properties
环境变量
您可以自定义Spark执行的环境变量。配置的属性将会更新到spark-env.sh中。
服务目录
参数
描述
类型
包括以下两种类型:
默认值
自定义
OSS路径
该目录用来存放集群服务组件的临时文件等。
该目录会作为产品的根目录来使用。当用户有多个集群时,不需要为每个集群单独指定服务目录。不同Region需要有不同的服务目录,产品会为每个集群在服务目录下创建子目录,即 oss://${specified-bucket-or-dir}/ddi-${clusterid}/。
阅读并勾选服务条款。
单击创建。
集群创建需要时间,当状态更新为空闲时表示创建成功,请您耐心等待。