单租户多引擎模式下新建集群

更新时间:
复制 MD 格式

权限说明

  • 超级管理员系统管理员和拥有集群管理-管理权限的自定义全局角色,均可创建和管理集群。同时,这些用户可设置在创建计算源时可引用该集群的用户,以及为该集群指定集群管理员。

  • 集群管理员可管理自己负责的集群。

  • 拥有计算源管理-新建全局角色的用户,可以在创建计算源时,选择引用自己有使用权限的集群。

创建集群

  1. Dataphin首页的顶部菜单栏中,选择规划 > 集群管理

  2. 集群管理页面,单击新建集群

  3. 新建集群页面,配置以下参数。

    • 基本信息

      参数

      描述

      集群名称

      输入当前集群的名称,仅支持中文、英文、数字、以及部分特殊字符-_.@~()以及空格,长度不超过128个字符。

      引擎类型

      当前支持选择以下引擎:

      • MaxCompute

      • AnalyticDB for PostgreSQL

      • Aliyun EMR 3.x

      • Aliyun EMR 5.x

      • CDH 5.x

      • CDH 6.x

      • Cloudera Data Platform 7.x

      • 华为FusionInsight 8.x

      • 亚信DP 5.3

      • StarRocks

      • Databricks

      • Amazon EMR

      • SelectDB

      • Doris

      • GaussDB(DWS)

      • 星环TDH 6.x

      • 星环TDH 9.3.x

      • 星环ArgoDB

      • Lindorm(计算引擎)

      • Hologres

      • OushuDB

      • Aliyun EMR Serverless Spark

      集群管理员

      选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。

      描述(非必选)

      输入当前集群的简单描述,长度不超过128个字符。

    • 集群安全管控

      可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色指定用户

      • 拥有“新建计算源”权限的角色:默认选中。

      • 指定用户:支持选择一个或多个个人账号和用户组。

    • 集群配置

      MaxCompute

      参数

      描述

      Endpoint

      输入计算引擎的Endpoint,例如http://service.odps.aliyun.com/api

      AccessKey ID

      填写可以访问MaxCompute项目数据的账号的AccessKey IDAccessKey Secret。

      您可在用户信息管理页面,获取账号的AccessKey IDAccessKey Secret。

      重要
      • 为了保证Dataphin项目空间与MaxCompute项目正常连接,建议填写MaxCompute项目管理员的AccessKey。

      • 为了保证元数据正常采集,请尽量不修改MaxCompute项目的AccessKey。

      AccessKey Secret

      Hadoop

      Hadoop包含CDH5.xCDH6.xCloudera Data Platform 7.xAliyun EMR 3.xAliyun EMR 5.x亚信DP 5.3华为FusionInsight 8.x引擎。

      多引擎模式下Hadoop的集群配置、HDFS计算引擎配置、Hive元数据配置、Spark Jar服务配置、Spark SQL服务配置、Impala任务配置同单引擎模式,详情请参见Hadoop集群配置

      AnalyticDB for PostgreSQL

      多引擎模式下AnalyticDB for PostgreSQL的集群配置同单引擎模式,详情请参见ADB PG集群配置

      星环TDH 6.x、星环TDH 9.3.x

      多引擎模式下星环TDH 6.x、星环TDH 9.3.x的集群配置、HDFS信息配置、Inceptor配置、Inceptor元数据连接信息同单引擎模式,详情请参见星环TDH集群配置

      星环ArgoDB

      多引擎模式下星环ArgoDB的集群配置、HDFS信息配置、ArgoDB配置、ArgoDB元数据连接信息同单引擎模式,详情请参见星环ArgoDB集群配置

      SelectDB、Doris、StarRocks

      多引擎模式下SelectDB、Doris、StarRocks的集群配置同单引擎模式,详情请参见SelectDB、Doris集群配置StarRocks集群配置

      Databricks

      多引擎模式下Databricks的集群配置同单引擎模式,详情请参见Databricks集群配置

      Amazon EMR

      多引擎模式下Amazon EMR的集群配置同单引擎模式,详情请参见Amazon EMR集群配置

      Lindorm(计算引擎)

      参数

      描述

      core-site.xml

      上传Lindorm(计算引擎)的core-site.xmlhdfs-site.xmlhive-site.xml配置文件。配置文件,请参见连接并使用实例

      hdfs-site.xml

      hive-site.xml(非必选)

      JDBC URL

      配置Lindorm(计算引擎)的JDBC URL地址。获取地址,请参见查看连接地址

      用户名密码

      访问Lindorm实例的用户名和密码。

      GaussDB(DWS)

      参数

      描述

      版本

      当前仅支持9.1.0版本。

      JDBC URL

      输入JDBC连接地址,例如jdbc:postgresql://{host};{port}/{database name}

      用户名密码

      填写GaussDB(DWS)计算引擎数据库的登录用户名和密码。

      Hologres

      参数

      描述

      JDBC URL

      Hologres计算源的连接地址。连接格式为:jdbc:postgresql://host:port/dbname

      用户名密码

      填写连接计算源的用户名和密码。

      若使用阿里云RAM账号,可填写该账号的AccessKeyAccessKey Secret;若使用数据库自建账号,需填写自建账号的ID和密码。

      OushuDB

      参数

      描述

      版本

      当前仅支持6.4.0

      JDBC URL

      输入JDBC URL,格式为jdbc:oushudb://{host}:{port}/

      默认执行用户密码

      输入鉴权用户名和密码,为保证任务正常运行,请确保用户有所需数据权限。

      Aliyun EMR Serverless Spark

      参数

      描述

      Endpoint

      输入Aliyun EMR Serverless Spark OpenAPI(SDK)的Endpoint。

      AccessKeyIdAccessKeySecret

      输入AccessKeyIDAccessKey Secret。

      工作空间

      可选择AccessKey对应RAM账号所加入的工作空间(ListWorkspaces)。

    • 其他配置

      MaxCompute

      参数

      描述

      外部表默认存储格式

      新建外部表默认存储格式,支持选择以下格式:

      • parquet

      • avro

      • rcfile

      • orc

      • textfile

      • sequencefile

      即席查询MCQA查询加速

      开启后,MaxCompute引擎下的项目使用即席查询时,可选择MCQA进行查询加速。

      日志中logview URL

      日志中logview URL的展示形式,可选择全部明文展示执行语句包含账号密码全局变量时隐藏

      默认生命周期

      物理表和逻辑表的默认生命周期,支持输入1~36500天,或快速选择71430360天。

      自定义参数生效

      开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

      Hadoop

      Hadoop包含CDH5.xCDH6.xCloudera Data Platform 7.xAliyun EMR 3.xAliyun EMR 5.x亚信DP 5.3华为FusionInsight 8.x引擎。

      参数

      描述

      默认存储格式

      在表管理中新建表时默认的存储格式,可选择以下格式:

      • 引擎默认(建表语句中可另外指定)

      • hudi

      • delta(Delta Lake)

      • paimon

      • iceberg

      • kudu

      • parquet

      • avro

      • rcfile

      • orc

      • textfile

      • sequencefile

      说明

      开启Spark SQL服务配置后才可选择hudi、delta(Delta Lake)、paimon、iceberg格式。开启Impala任务配置后才可选择kudu格式。

      规范建模默认计算引擎

      支持选择HiveSparkImpala

      说明

      开启Spark SQL服务配置后才可选择Spark;开启Impala任务配置后才可选择Impala。

      自定义参数生效

      开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

      AnalyticDB for PostgreSQL、OushuDB

      自定义参数生效:开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

      星环TDH 6.x/9.3.x、Lindorm(计算引擎)、Aliyun EMR Serverless Spark

      参数

      描述

      默认存储格式

      在表管理中新建表时默认的存储格式,可选择以下格式:

      • 引擎默认(建表语句中可另外指定)

      • parquet

      • avro

      • rcfile

      • orc

      • textfile

      • sequencefile

      自定义参数生效

      开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

      星环ArgoDB、SelectDB、StarRocks、Doris

      自定义参数生效:开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

      Databricks

      参数

      描述

      默认存储格式

      在表管理中新建表时默认的存储格式,可选择以下格式:

      • 引擎默认(建表语句中可另外指定)

      • parquet

      • avro

      • orc

      • binaryfile

      • csv

      • json

      • text

      自定义参数生效

      开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

      Amazon EMR

      参数

      描述

      默认存储格式

      在表管理中新建表时默认的存储格式,可选择以下格式:

      • 引擎默认(建表语句中可另外指定)

      • hudi

      • delta(Delta Lake)

      • paimon

      • iceberg

      • parquet

      • avro

      • rcfile

      • orc

      • textfile

      • sequencefile

      说明

      开启Spark SQL服务配置后才可选择hudi、delta(Delta Lake)、paimon、iceberg格式。

      规范建模默认计算引擎

      支持选择HiveSpark

      说明

      开启Spark SQL服务配置后才可选择Spark。

      自定义参数生效

      开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。

  4. 单击测试连接,系统将自动开始测试与各服务间的连接。

    测试连接通过后即可进行保存,若测试连接未通过,系统将弹出测试连接未通过对话框,可在对话框中查看未通过测试的服务以及其错误详情。

  5. 测试连接通过后,单击保存,完成集群创建。