新建Flink计算源

更新时间:2025-02-11 03:22:43

Flink计算源用于承载Dataphin项目下基于Flink的计算资源,只有绑定了Flink计算源的项目,才支持基于Flink引擎研发计算任务。本文将为您介绍如何新建Flink计算源。

前提条件

  • 当前租户已经启用Apache Flink作为实时计算引擎。更多信息,请参见设置实时计算引擎

  • 仅支持具备新建计算源权限点的自定义用户角色,以及超级管理员项目管理员角色的账号新建计算源。更多信息,请参见数仓规划权限列表

操作步骤

  1. Dataphin首页的顶部菜单栏中,选择规划 > 计算源

  2. 在计算源页面单击新增计算源,选择Flink计算源

  3. 新建计算源页面,配置参数。

    1. 配置计算引擎源基本信息

      参数

      描述

      参数

      描述

      计算类型

      选择为Flink

      计算源名称

      填写计算源的名称。命名规则如下:

      • 包含中文、数字、字母及下划线(_)或短划线(-)。

      • 不能超过64个字符。

      计算源描述

      填写计算源的描述,128个字符以内。

    2. 配置集群基本信息和Flink计算引擎配置信息

      Dataphin支持集群的不同部署模式,包括YarnKubernetes部署模式。不同部署模式需要配置的参数不同。

      Yarn部署模式
      Kubernetes部署模式
      • 集群基本信息

        参数

        描述

        配置文件

        上传集群的配置文件。yarn-site.xml、core-site.xmlhdfs-site.xml配置文件必须上传。

        集群Kerberos

        Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBaseHDFS)。

        如果集群有Kerberos认证,则需要开启集群Kerberos并上传Krb5认证文件或配置KDC Server地址。

        • Krb5认证文件:需要上传Krb5文件进行Kerberos认证。

        • KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。支持配置多个KDC Server服务地址,使用半角逗号(,)分隔。

        集群类型

        非必选,选择集群的类型,用于测试连接。包括E-MapReduce5.x、CDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、亚信DP5.3 Hadoop、星环TDH 6.x Hadoop。

        重要

        通常情况下,未选择集群类型也能够测试连接通过;个别情况未选择可能导致测试连接失败,建议进行选择。

      • Flink计算引擎配置信息。

        参数

        描述

        Flink任务资源队列

        Flink任务提交到yarn的队列名称。命名规范及限制说明如下:

        • 长度限制:队列名称长度不能超过255个字符。

        • 字符限制:队列名称只能包含英文、数字、点(.)和下划线(_),不能包含其他特殊字符。

        • 大小写敏感:队列名称大小写敏感,即名称中的大小写字母为不同的字符。

        • 唯一性:队列名称必须是计算源唯一,不能与其他队列名称重复。

        若需配置多个任务队列,您可单击+添加进行新增。

        说明
        • 添加的资源队列个数仅支持10个。

        • 若需删除多余的资源队列,您可单击image进行删除。删除后,已有作业将无法正常提交。

        CheckPoint存储状

        • 集群存储:支持HDFSOSS-HDFS。

          说明

          OSS-HDFS集群存储仅支持E-MapReduce5.x Hadoop计算引擎。

        • 目录路径:输入CheckPoint集群存储的目录路径,并确保Flink有访问该路径的权限。例如hdfs://cdh-cluster-00001:8020/openflink/savepoint/。若您的HDFSHA高可用集群,支持填写高可用路径,即hdfs://服务名(nameservice)/路径

        • 当集群存储为HDFS时需配置如下参数:

          • Flink Kerberos:如果Flink集群有Kerberos认证,您可开启Flink Kerberos并上传Keytab File认证文件与配置Principal。

            • Keytab File:上传keytab文件,您可以在Flink Server上获取keytab文件。

            • Principal:填写Flink Keytab File文件对应的Kerberos认证用户名。

          • 用户名Flink Kerberos关闭时,需填写提交Flink任务的集群用户名。

        • 当集群存储为OSS-HDFS时时需配置如下参数:

          • AccessKey IDAccessKey Secret:需填写访问集群OSSAccessKey IDAccessKey Secret。查看AccessKey,请参见查看AccessKey

          • Flink Kerberos:如果Flink集群有Kerberos认证,您可开启Flink Kerberos并上传Keytab File认证文件与配置Principal。

            • Keytab File:上传keytab文件,您可以在Flink Server上获取keytab文件。

            • Principal:填写Flink Keytab File文件对应的Kerberos认证用户名。

          • 用户名Flink Kerberos关闭时,需填写提交Flink任务的集群用户名。

        重要

        此处填写的配置优先级高于core-site.xml中配置的AccessKey。

      • 集群基本信息

        Kubernetes部署模式无需配置集群基本信息。

      • Flink计算引擎配置信息

        Kubernetes部署模式下,Flink计算引擎的文件系统可选择NFSAmazon S3Azure Blob Storage三种类型,选择不同类型的文件系统后所需配置的参数不同。

        NFS
        Amazon S3
        Azure Blob Storage

        参数

        描述

        Server

        填写NFS服务器的域名。

        版本

        选择NFS的版本。支持NFSv3NFSv4版本。

        目录

        填写NFSCheckPoint的存储路径目录。例如,/data/checkpoint

        最大容量

        输入NFS支持存储的最大容量,超出后将影响Checkpoint存储。单位(Gi)。

        参数

        描述

        目录路径

        输入存储路径,默认为s3://<YOUR-BUCKET>/<path>

        Access KeySecret Key

        输入访问Amazon S3AccessKeyAccessKey Secret,单击image图标可查看明文。

        参数

        描述

        协议

        当前仅支持选择ABDS

        认证方式

        当前仅支持选择Shared Key

        目录路径

        输入存储路径,默认为abfs://<YOUR-CONTAINER>@$<YOUR-AZURE-ACCOUNT>.dfs.core.windows.net/<object-path>

        访问密钥

        输入访问Azure Blob Storage账户的访问密钥,单击image图标可查看明文。

  4. 单击测试连接,测试Dataphin与集群的连通性。

    Kubernetes部署模式不支持测试连接,您可以直接单击提交

  5. 测试成功后,单击提交

后续步骤

完成创建Flink计算源后,即可为项目绑定Flink计算源。更多信息,请参见创建通用项目

  • 本页导读 (0)
  • 前提条件
  • 操作步骤
  • 后续步骤