权限说明
超级管理员、系统管理员和拥有集群管理-管理权限的自定义全局角色,均可创建和管理集群。同时,这些用户可设置在创建计算源时可引用该集群的用户,以及为该集群指定集群管理员。
集群管理员可管理自己负责的集群。
拥有计算源管理-新建全局角色的用户,可以在创建计算源时,选择引用自己有使用权限的集群。
创建集群
在Dataphin首页的顶部菜单栏中,选择规划 > 集群管理。
在集群管理页面,单击新建集群。
在新建集群页面,配置以下参数。
基本信息
参数
描述
集群名称
输入当前集群的名称,仅支持中文、英文、数字、以及部分特殊字符
-_.@~()以及空格,长度不超过128个字符。引擎类型
当前支持选择以下引擎:
MaxCompute
AnalyticDB for PostgreSQL
Aliyun EMR 3.x
Aliyun EMR 5.x
CDH 5.x
CDH 6.x
Cloudera Data Platform 7.x
华为FusionInsight 8.x
亚信DP 5.3
StarRocks
Databricks
Amazon EMR
SelectDB
Doris
GaussDB(DWS)
星环TDH 6.x
星环TDH 9.3.x
星环ArgoDB
Lindorm(计算引擎)
Hologres
OushuDB
Aliyun EMR Serverless Spark
集群管理员
选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。
描述(非必选)
输入当前集群的简单描述,长度不超过128个字符。
集群安全管控
可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色或指定用户。
拥有“新建计算源”权限的角色:默认选中。
指定用户:支持选择一个或多个个人账号和用户组。
集群配置
MaxCompute
参数
描述
Endpoint
输入计算引擎的Endpoint,例如
http://service.odps.aliyun.com/api。AccessKey ID
填写可以访问MaxCompute项目数据的账号的AccessKey ID和AccessKey Secret。
您可在用户信息管理页面,获取账号的AccessKey ID和AccessKey Secret。
重要为了保证Dataphin项目空间与MaxCompute项目正常连接,建议填写MaxCompute项目管理员的AccessKey。
为了保证元数据正常采集,请尽量不修改MaxCompute项目的AccessKey。
AccessKey Secret
Hadoop
Hadoop包含CDH5.x、CDH6.x、Cloudera Data Platform 7.x、Aliyun EMR 3.x、Aliyun EMR 5.x、亚信DP 5.3、华为FusionInsight 8.x引擎。
多引擎模式下Hadoop的集群配置、HDFS计算引擎配置、Hive元数据配置、Spark Jar服务配置、Spark SQL服务配置、Impala任务配置同单引擎模式,详情请参见Hadoop集群配置。
AnalyticDB for PostgreSQL
多引擎模式下AnalyticDB for PostgreSQL的集群配置同单引擎模式,详情请参见ADB PG集群配置。
星环TDH 6.x、星环TDH 9.3.x
多引擎模式下星环TDH 6.x、星环TDH 9.3.x的集群配置、HDFS信息配置、Inceptor配置、Inceptor元数据连接信息同单引擎模式,详情请参见星环TDH集群配置。
星环ArgoDB
多引擎模式下星环ArgoDB的集群配置、HDFS信息配置、ArgoDB配置、ArgoDB元数据连接信息同单引擎模式,详情请参见星环ArgoDB集群配置。
SelectDB、Doris、StarRocks
多引擎模式下SelectDB、Doris、StarRocks的集群配置同单引擎模式,详情请参见SelectDB、Doris集群配置、StarRocks集群配置。
Databricks
多引擎模式下Databricks的集群配置同单引擎模式,详情请参见Databricks集群配置。
Amazon EMR
多引擎模式下Amazon EMR的集群配置同单引擎模式,详情请参见Amazon EMR集群配置。
Lindorm(计算引擎)
参数
描述
core-site.xml
上传Lindorm(计算引擎)的core-site.xml、hdfs-site.xml和hive-site.xml配置文件。配置文件,请参见连接并使用实例。
hdfs-site.xml
hive-site.xml(非必选)
JDBC URL
配置Lindorm(计算引擎)的JDBC URL地址。获取地址,请参见查看连接地址。
用户名、密码
访问Lindorm实例的用户名和密码。
GaussDB(DWS)
参数
描述
版本
当前仅支持9.1.0版本。
JDBC URL
输入JDBC连接地址,例如
jdbc:postgresql://{host};{port}/{database name}。用户名、密码
填写GaussDB(DWS)计算引擎数据库的登录用户名和密码。
Hologres
参数
描述
JDBC URL
Hologres计算源的连接地址。连接格式为:
jdbc:postgresql://host:port/dbname。用户名、密码
填写连接计算源的用户名和密码。
若使用阿里云RAM账号,可填写该账号的AccessKey和AccessKey Secret;若使用数据库自建账号,需填写自建账号的ID和密码。
OushuDB
参数
描述
版本
当前仅支持6.4.0。
JDBC URL
输入JDBC URL,格式为
jdbc:oushudb://{host}:{port}/。默认执行用户、密码
输入鉴权用户名和密码,为保证任务正常运行,请确保用户有所需数据权限。
Aliyun EMR Serverless Spark
参数
描述
Endpoint
输入Aliyun EMR Serverless Spark OpenAPI(SDK)的Endpoint。
AccessKeyId、AccessKeySecret
输入AccessKeyID和AccessKey Secret。
工作空间
可选择AccessKey对应RAM账号所加入的工作空间(ListWorkspaces)。
其他配置
MaxCompute
参数
描述
外部表默认存储格式
新建外部表默认存储格式,支持选择以下格式:
parquet
avro
rcfile
orc
textfile
sequencefile
即席查询MCQA查询加速
开启后,MaxCompute引擎下的项目使用即席查询时,可选择MCQA进行查询加速。
日志中logview URL
日志中logview URL的展示形式,可选择全部明文展示或执行语句包含账号密码全局变量时隐藏。
默认生命周期
物理表和逻辑表的默认生命周期,支持输入1~36500天,或快速选择7、14、30、360天。
自定义参数生效
开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
Hadoop
Hadoop包含CDH5.x、CDH6.x、Cloudera Data Platform 7.x、Aliyun EMR 3.x、Aliyun EMR 5.x、亚信DP 5.3、华为FusionInsight 8.x引擎。
参数
描述
默认存储格式
在表管理中新建表时默认的存储格式,可选择以下格式:
引擎默认(建表语句中可另外指定)
hudi
delta(Delta Lake)
paimon
iceberg
kudu
parquet
avro
rcfile
orc
textfile
sequencefile
说明开启Spark SQL服务配置后才可选择hudi、delta(Delta Lake)、paimon、iceberg格式。开启Impala任务配置后才可选择kudu格式。
规范建模默认计算引擎
支持选择Hive、Spark或Impala。
说明开启Spark SQL服务配置后才可选择Spark;开启Impala任务配置后才可选择Impala。
自定义参数生效
开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
AnalyticDB for PostgreSQL、OushuDB
自定义参数生效:开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
星环TDH 6.x/9.3.x、Lindorm(计算引擎)、Aliyun EMR Serverless Spark
参数
描述
默认存储格式
在表管理中新建表时默认的存储格式,可选择以下格式:
引擎默认(建表语句中可另外指定)
parquet
avro
rcfile
orc
textfile
sequencefile
自定义参数生效
开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
星环ArgoDB、SelectDB、StarRocks、Doris
自定义参数生效:开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
Databricks
参数
描述
默认存储格式
在表管理中新建表时默认的存储格式,可选择以下格式:
引擎默认(建表语句中可另外指定)
parquet
avro
orc
binaryfile
csv
json
text
自定义参数生效
开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
Amazon EMR
参数
描述
默认存储格式
在表管理中新建表时默认的存储格式,可选择以下格式:
引擎默认(建表语句中可另外指定)
hudi
delta(Delta Lake)
paimon
iceberg
parquet
avro
rcfile
orc
textfile
sequencefile
说明开启Spark SQL服务配置后才可选择hudi、delta(Delta Lake)、paimon、iceberg格式。
规范建模默认计算引擎
支持选择Hive或Spark。
说明开启Spark SQL服务配置后才可选择Spark。
自定义参数生效
开启后将全局应用到智能计算引擎的代码生成规则中,起到控制任务运行时的资源分配与运行机制。例如设置任务默认内存分配、默认优先级、MapJoin开启等。自定义参数配置需遵循当前引擎类型设置。
单击测试连接,系统将自动开始测试与各服务间的连接。
测试连接通过后即可进行保存,若测试连接未通过,系统将弹出测试连接未通过对话框,可在对话框中查看未通过测试的服务以及其错误详情。
测试连接通过后,单击保存,完成集群创建。