Flink SQL Batch节点

Flink SQL Batch节点使您能够使用标准SQL语句定义和执行数据处理任务,适用于大数据集的分析与转换,包括数据清洗和聚合。该节点支持可视化配置,为您提供高效且灵活的大规模数据批处理方案。在Flink SQL Batch节点中,您可以使用类SQL语句完成大规模数据加工的批处理。本文将介绍如何在Flink SQL Batch节点中配置和使用SQL语句来完成数据的批处理。

前提条件

  • 已创建工作空间,并在管理中心绑定实时计算Flink版计算资源。

  • 已创建Flink SQL Batch节点。

步骤一:Flink SQL Batch节点开发

在Flink SQL Batch节点编辑页面,执行如下开发操作,完成节点任务的开发。

开发SQL代码

在SQL编辑区域开发任务代码,您可在代码中使用${变量名}的方式定义变量,并在节点编辑页面右侧调度配置调度参数中为该变量赋值。实现调度场景下代码的动态传参,调度参数使用详情,示例如下。

--创建源表datagen_source。
CREATE TEMPORARY TABLE datagen_source_${var}(
  name VARCHAR
) WITH (
  'connector' = 'datagen'
);

--创建结果表blackhole_sink。
CREATE TEMPORARY TABLE blackhole_sink_${var}(
  name  VARCHAR
) WITH (
  'connector' = 'blackhole'
);

--将源表数据插入到结果表。
INSERT INTO blackhole_sink_${var}
SELECT
  name
FROM datagen_source_${var};
说明

该示例参数bizdate对应的参数值为$[yyyymmdd],通过设置该参数可以实现对每日新增数据的批量同步处理。

步骤二:Flink SQL Batch节点配置

您可根据业务情况,参照下面的参数描述信息配置Flink SQL Streaming节点任务。

配置调度信息

您可在编辑页面右侧调度配置框的Flink资源信息中配置如下参数信息。

参数

描述

Flink 集群

在管理中心绑定的全托管Flink计算资源名称。

Flink 引擎版本

您可根据实际情况选择引擎版本。

调度资源组

选择与Flink网络连通的Serverless资源组

Job Manager CPU

根据Flink的最佳实践,JobManager至少需要0.5核CPU和2GiB内存来确保稳定运行,建议配置为1核CPU和4 GiB内存,最大不超过16核CPU。具体配置应根据集群规模和作业复杂度调整。

Job Manager Memory

JobManager的内存配置影响其处理调度和管理任务的能力,推荐配置范围是2 GiB到64 GiB,以确保稳定高效的运行。具体大小应根据集群规模和作业需求调整。

Task Manager CPU

TaskManager的CPU资源配置影响其任务处理能力。根据Flink的最佳实践,建议配置至少0.5核CPU和2 GiB内存,推荐1核CPU和4 GiB内存,最大不超过16核CPU。具体配置应依据实际需求调整。

Task Manager Memory

TaskManager的内存配置决定了其处理任务的数据量和性能。为了确保任务稳定执行和高效处理,内存大小至少应为2 GiB,最大可设置为64 GiB。

并发度

决定了Flink作业中任务的并行执行数量,较高的并发度可以提高处理速度和资源利用率,您需要根据集群资源和作业特性进行合理设置。

最大Slot数

代表了Task Manager上可以分配给任务的固定大小的资源。每个Slot可以运行一个pipeline的一个task或operator的一个实例。您可以根据实际资源情况调整最大Slot数。

每个TaskManager Slot数

每个TaskManager的Slot数决定了它可以并行执行的任务数量,您可通过调整Slot配置优化资源利用和作业的并行处理能力。

说明

如需定期执行节点任务,请根据业务需求配置调度信息。

完成任务配置后,单击保存节点任务。

步骤三:Flink SQL Batch节点发布与运维

  1. 节点任务配置完成后,需对节点进行发布。

  2. 任务发布后,您可以单击发布到生产环境下方的去运维,在运维中心查看周期任务的运行情况。详情请参见运维中心入门

相关文档