创建集群

本节介绍如何使用Databricks数据洞察控制台创建集群。

前提条件

已注册阿里云账号,并完成实名认证。详情请参见阿里云账号注册流程

操作步骤

  1. 使用阿里云账号登录Databricks数据洞察控制台

  2. 在Databricks数据洞察控制台页面,选择所在的地域(Region)。

    创建的集群将会在对应的地域内,一旦创建后不能修改。

  3. 在左侧导航栏中,单击集群

  4. 集群管理页面,单击创建集群

  5. 设置基础信息。

    参数

    描述

    集群名称

    集群的名字。长度限制为1~64个字符,仅可使用中文、字母、数字、连接号(-)和下划线(_)

    Knox账号

    为了更好的安全性,Web UI访问(如Zeppelin Notebook、Spark UI、Ganglia UI)需要Knox账号和密码,来保障您的账号安全。若无RAM子账号,请前往RAM控制台进行创建

    Knox密码

    两次确认Knox密码,登录Web UI时候使用,请您牢记

    Databricks Runtime版本

    Databricks Runtime的版本信息,版本号与Databricks官方保持一致,包含Scala和Spark的版本。版本详情请参见Databricks Runtime版本说明

    Python版本

    默认版本为Python 3

    付费类型

    Databricks数据洞察支持包年包月和按量付费两种付费类型

    可用区

    可用区为在同一地域下的不同物理区域,可用区之间内网互通。

    一般选择默认的可用区即可,亦可选择与已购阿里云产品部署在同一个可用区。

    ECS实例

    由Master和Worker两种类型的节点组成:

    • Master节点:主要负责集群资源管理和作业调度。默认节点个数为1。

    • Worker节点:集群的计算节点,主要负责作业的执行。最小节点数量为3。

    元数据选择

    推荐选择数据湖元数据。

    • 数据湖元数据:表示元数据存储在数据湖中。如果没有开通数据湖构建服务,需要单击请前往开通。参见数据湖元数据管理

    • 统一meta数据库:表示元数据存储在集群本地环境的MySQL数据库中

    • 独立RDS MySQL:表示使用自建的阿里云RDS作为元数据库,更多信息请参见

      共享独立RDS元数据库

  6. 设置高级信息。

    高级信息包括如下两方面:

    • Spark设置

      参数

      描述

      Spark配置

      输入Spark的配置信息。配置的属性值将会更改到spark-defaults.conf文件中。支持的配置列表为spark.apache.org/docs/latest/configuration.html#spark-properties

      环境变量

      您可以自定义Spark执行的环境变量。配置的属性将会更新到spark-env.sh中。

    • 服务目录

      参数

      描述

      类型

      包括以下两种类型:

      • 默认值

      • 自定义

      OSS路径

      该目录用来存放集群服务组件的临时文件等。

      该目录会作为产品的根目录来使用。当用户有多个集群时,不需要为每个集群单独指定服务目录。不同Region需要有不同的服务目录,产品会为每个集群在服务目录下创建子目录,即 oss://${specified-bucket-or-dir}/ddi-${clusterid}/

  7. 阅读并勾选服务条款。

  8. 单击创建

    集群创建需要时间,当状态更新为空闲时表示创建成功,请您耐心等待。