Flink计算源用于承载Dataphin项目下基于Flink的计算资源,只有绑定了Flink计算源的项目,才支持基于Flink引擎研发计算任务。本文将为您介绍如何新建Flink计算源。
前提条件
操作步骤
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面单击新增计算源,选择Flink计算源。
在新建计算源页面,配置参数。
配置计算引擎源基本信息
参数
描述
参数
描述
计算类型
选择为Flink。
计算源名称
填写计算源的名称。命名规则如下:
包含中文、数字、字母及下划线(_)或短划线(-)。
不能超过64个字符。
计算源描述
填写计算源的描述,128个字符以内。
配置集群基本信息和Flink计算引擎配置信息
Dataphin支持集群的不同部署模式,包括Yarn和Kubernetes部署模式。不同部署模式需要配置的参数不同。
Yarn部署模式Kubernetes部署模式集群基本信息
参数
描述
配置文件
上传集群的配置文件。yarn-site.xml、core-site.xml和hdfs-site.xml配置文件必须上传。
集群Kerberos
Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBase和HDFS)。
如果集群有Kerberos认证,则需要开启集群Kerberos并上传Krb5认证文件或配置KDC Server地址。
Krb5认证文件:需要上传Krb5文件进行Kerberos认证。
KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。支持配置多个KDC Server服务地址,使用半角逗号(,)分隔。
集群类型
非必选,选择集群的类型,用于测试连接。包括E-MapReduce5.x、CDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、亚信DP5.3 Hadoop、星环TDH 6.x Hadoop。
通常情况下,未选择集群类型也能够测试连接通过;个别情况未选择可能导致测试连接失败,建议进行选择。
Flink计算引擎配置信息。
参数
描述
Flink任务资源队列
Flink任务提交到yarn的队列名称。命名规范及限制说明如下:
长度限制:队列名称长度不能超过255个字符。
字符限制:队列名称只能包含英文、数字、点(.)和下划线(_),不能包含其他特殊字符。
大小写敏感:队列名称大小写敏感,即名称中的大小写字母为不同的字符。
唯一性:队列名称必须是计算源唯一,不能与其他队列名称重复。
若需配置多个任务队列,您可单击+添加进行新增。
添加的资源队列个数仅支持10个。
若需删除多余的资源队列,您可单击
进行删除。删除后,已有作业将无法正常提交。
CheckPoint存储状
集群存储:支持HDFS和OSS-HDFS。
OSS-HDFS集群存储仅支持E-MapReduce5.x Hadoop计算引擎。
目录路径:输入CheckPoint集群存储的目录路径,并确保Flink有访问该路径的权限。例如
hdfs://cdh-cluster-00001:8020/openflink/savepoint/
。若您的HDFS为HA高可用集群,支持填写高可用路径,即hdfs://服务名(nameservice)/路径
。当集群存储为HDFS时需配置如下参数:
Flink Kerberos:如果Flink集群有Kerberos认证,您可开启Flink Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Flink Server上获取keytab文件。
Principal:填写Flink Keytab File文件对应的Kerberos认证用户名。
用户名:Flink Kerberos关闭时,需填写提交Flink任务的集群用户名。
当集群存储为OSS-HDFS时时需配置如下参数:
AccessKey ID、AccessKey Secret:需填写访问集群OSS的AccessKey ID和AccessKey Secret。查看AccessKey,请参见查看AccessKey。
Flink Kerberos:如果Flink集群有Kerberos认证,您可开启Flink Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Flink Server上获取keytab文件。
Principal:填写Flink Keytab File文件对应的Kerberos认证用户名。
用户名:Flink Kerberos关闭时,需填写提交Flink任务的集群用户名。
此处填写的配置优先级高于core-site.xml中配置的AccessKey。
集群基本信息
Kubernetes部署模式无需配置集群基本信息。
Flink计算引擎配置信息
Kubernetes部署模式下,Flink计算引擎的文件系统可选择NFS、Amazon S3、Azure Blob Storage三种类型,选择不同类型的文件系统后所需配置的参数不同。
NFSAmazon S3Azure Blob Storage参数
描述
Server
填写NFS服务器的域名。
版本
选择NFS的版本。支持NFSv3和NFSv4版本。
目录
填写NFS上CheckPoint的存储路径目录。例如,
/data/checkpoint
。最大容量
输入NFS支持存储的最大容量,超出后将影响Checkpoint存储。单位(Gi)。
参数
描述
目录路径
输入存储路径,默认为
s3://<YOUR-BUCKET>/<path>
。Access Key、Secret Key
输入访问Amazon S3的AccessKey和AccessKey Secret,单击
图标可查看明文。
参数
描述
协议
当前仅支持选择ABDS。
认证方式
当前仅支持选择Shared Key。
目录路径
输入存储路径,默认为
abfs://<YOUR-CONTAINER>@$<YOUR-AZURE-ACCOUNT>.dfs.core.windows.net/<object-path>
。访问密钥
输入访问Azure Blob Storage账户的访问密钥,单击
图标可查看明文。
单击测试连接,测试Dataphin与集群的连通性。
Kubernetes部署模式不支持测试连接,您可以直接单击提交。
测试成功后,单击提交。
后续步骤
完成创建Flink计算源后,即可为项目绑定Flink计算源。更多信息,请参见创建通用项目。
- 本页导读 (0)
- 前提条件
- 操作步骤
- 后续步骤