新建Flink计算源

Flink计算源用于承载Dataphin项目下基于Flink的计算资源,只有绑定了Flink计算源的项目,才支持基于Flink引擎研发计算任务。本文将为您介绍如何新建Flink计算源。

前提条件

  • 当前租户已经启用Apache Flink作为实时计算引擎。更多信息,请参见设置实时计算引擎

  • 仅支持具备新建计算源权限点的自定义用户角色和超级管理员项目管理员角色的账号新建计算源。更多信息,请参见数仓规划权限列表

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏的规划->计算源

  2. 按照以下操作指引,进入新建计算源页面。

    依次单击计算源->新增计算源->Flink计算源

    image

  3. 新建计算源页面,配置参数。

    1. 配置计算引擎源基本信息。

      参数

      描述

      计算类型

      选择为Flink

      计算源名称

      填写计算源的名称。命名规则如下:

      • 包含中文、数字、字母及下划线(_)或短划线(-)。

      • 不能超过64个字符。

      计算源描述

      填写计算源的描述,128个字符以内。

    2. 配置集群基本信息。

      Dataphin支持集群的不同部署模式,包括YarnK8s(Kubernetes)部署模式。不同部署模式需要配置的参数不同。

      • Yarn部署模式。

        • 集群基本信息。

          参数

          描述

          配置文件

          上传集群的配置文件。yarn-site.xml、core-site.xml和hdfs-site.xml配置文件必须上传。

          集群Kerberos

          Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBase和HDFS)。

          如果集群有Kerberos认证,则需要开启集群Kerberos并上传Krb5认证文件或配置KDC Server地址:

          • Krb5认证文件:需要上传Krb5文件进行Kerberos认证。

            image

          • KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。

            image

          说明

          支持配置多个KDC Server服务地址,使用半角逗号(,)分割。

          集群类型

          非必选,选择集群的类型,用于测试连接。包括E-MapReduce5.x、CDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、亚信DP5.3 Hadoop、星环TDH 6.x Hadoop。

          重要

          通常情况下,未选择集群类型也能够测试连接通过;个别情况未选择可能导致测试连接失败,建议进行选择。

        • Flink计算引擎配置信息。

          参数

          描述

          Flink任务资源队列

          Flink任务提交到yarn的队列名称。命名规范及限制说明如下:

          • 长度限制:队列名称长度不能超过255个字符。

          • 字符限制:队列名称只能包含英文、数字、点(.)和下划线(_),不能包含其他特殊字符。

          • 大小写敏感:队列名称大小写敏感,即名称中的大小写字母为不同的字符。

          • 唯一性:队列名称必须是计算源唯一,不能与其他队列名称重复。

          若需配置多个任务队列,您可单击+添加进行新增。

          说明
          • 添加的资源队列个数仅支持10个。

          • 若需删除多余的资源队列,您可单击image进行删除。删除后,已有作业将无法正常提交。

          CheckPoint存储状

          • 集群存储:支持HDFS和OSS-HDFS。

            说明

            OSS-HDFS集群存储仅支持E-MapReduce5.x Hadoop计算引擎。

          • 目录路径:输入CheckPoint集群存储的目录路径,并确保Flink有访问该路径的权限。例如hdfs://cdh-cluster-00001:8020/openflink/savepoint/。若您的HDFS为HA高可用集群,支持填写高可用路径,即hdfs://服务名(nameservice)/路径

          • 当集群存储为HDFS时需配置如下参数:

            • Flink Kerberos:如果Flink集群有Kerberos认证,您可开启Flink Kerberos并上传Keytab File认证文件与配置Principal。

              image

              • Keytab File:上传keytab文件,您可以在Flink Server上获取keytab文件。

              • Principal:填写Flink Keytab File文件对应的Kerberos认证用户名。

            • 用户名Flink Kerberos关闭时,需填写提交Flink任务的集群用户名。

          • 当集群存储为OSS-HDFS时时需配置如下参数:

            • AccessKey IDAccessKey Secret:需填写访问集群OSS的AccessKey ID和AccessKey Secret。查看AccessKey,请参见查看AccessKey

            • Flink Kerberos:如果Flink集群有Kerberos认证,您可开启Flink Kerberos并上传Keytab File认证文件与配置Principal。

              image

              • Keytab File:上传keytab文件,您可以在Flink Server上获取keytab文件。

              • Principal:填写Flink Keytab File文件对应的Kerberos认证用户名。

            • 用户名Flink Kerberos关闭时,需填写提交Flink任务的集群用户名。

          重要

          此处填写的配置优先级高于core-site.xml中配置的AccessKey。

      • K8s(Kubernetes)部署模式。

        • 集群基本信息。

          K8s(Kubernetes)部署模式无需配置集群基本信息。

        • Flink计算引擎配置信息。

          参数

          描述

          集群存储

          根据K8s(Kubernetes)部署的Flink计算引擎集群选择集群存储类型。目前仅支持NFS集群存储。

          server

          填写NFS服务器的域名。

          版本

          选择NFS的版本。支持NFSv3NFSv4版本。

          目录

          填写NFS上CheckPoint的存储路径目录。例如,/data/checkpoint

          最大容量

          请输入NFS支持存储的最大容量,超出后将影响Checkpoint存储。单位(Gi)。

  4. 单击测试连接,测试Dataphin与集群的连通性。

    K8s(Kubernetes)部署模式不支持测试连接,您可以直接单击提交

  5. 测试成功后,单击提交

后续步骤

完成创建Flink计算源后,即可为项目绑定Flink计算源。更多信息,请参见创建通用项目