Flink SQL Batch节点使您能够使用标准SQL语句定义和执行数据处理任务,适用于大数据集的分析与转换,包括数据清洗和聚合。该节点支持可视化配置,为您提供高效且灵活的大规模数据批处理方案。在Flink SQL Batch节点中,您可以使用类SQL语句完成大规模数据加工的批处理。本文将介绍如何在Flink SQL Batch节点中配置和使用SQL语句来完成数据的批处理。
前提条件
已创建工作空间,并在管理中心绑定实时计算Flink版计算资源。
已创建Flink SQL Batch节点。
步骤一:Flink SQL Batch节点开发
在Flink SQL Batch节点编辑页面,执行如下开发操作,完成节点任务的开发。
开发SQL代码
在SQL编辑区域开发任务代码,您可在代码中使用${变量名}的方式定义变量,并在节点编辑页面右侧调度配置的调度参数中为该变量赋值。实现调度场景下代码的动态传参,调度参数使用详情,示例如下。
--创建源表datagen_source。
CREATE TEMPORARY TABLE datagen_source_${var}(
name VARCHAR
) WITH (
'connector' = 'datagen'
);
--创建结果表blackhole_sink。
CREATE TEMPORARY TABLE blackhole_sink_${var}(
name VARCHAR
) WITH (
'connector' = 'blackhole'
);
--将源表数据插入到结果表。
INSERT INTO blackhole_sink_${var}
SELECT
name
FROM datagen_source_${var};
该示例参数bizdate
对应的参数值为$[yyyymmdd]
,通过设置该参数可以实现对每日新增数据的批量同步处理。
步骤二:Flink SQL Batch节点配置
您可根据业务情况,参照下面的参数描述信息配置Flink SQL Streaming节点任务。
配置调度信息
您可在编辑页面右侧调度配置框的Flink资源信息中配置如下参数信息。
参数 | 描述 |
Flink 集群 | 在管理中心绑定的全托管Flink计算资源名称。 |
Flink 引擎版本 | 您可根据实际情况选择引擎版本。 |
调度资源组 | 选择与Flink网络连通的Serverless资源组。 |
Job Manager CPU | 根据Flink的最佳实践,JobManager至少需要0.5核CPU和2GiB内存来确保稳定运行,建议配置为1核CPU和4 GiB内存,最大不超过16核CPU。具体配置应根据集群规模和作业复杂度调整。 |
Job Manager Memory | JobManager的内存配置影响其处理调度和管理任务的能力,推荐配置范围是2 GiB到64 GiB,以确保稳定高效的运行。具体大小应根据集群规模和作业需求调整。 |
Task Manager CPU | TaskManager的CPU资源配置影响其任务处理能力。根据Flink的最佳实践,建议配置至少0.5核CPU和2 GiB内存,推荐1核CPU和4 GiB内存,最大不超过16核CPU。具体配置应依据实际需求调整。 |
Task Manager Memory | TaskManager的内存配置决定了其处理任务的数据量和性能。为了确保任务稳定执行和高效处理,内存大小至少应为2 GiB,最大可设置为64 GiB。 |
并发度 | 决定了Flink作业中任务的并行执行数量,较高的并发度可以提高处理速度和资源利用率,您需要根据集群资源和作业特性进行合理设置。 |
最大Slot数 | 代表了Task Manager上可以分配给任务的固定大小的资源。每个Slot可以运行一个pipeline的一个task或operator的一个实例。您可以根据实际资源情况调整最大Slot数。 |
每个TaskManager Slot数 | 每个TaskManager的Slot数决定了它可以并行执行的任务数量,您可通过调整Slot配置优化资源利用和作业的并行处理能力。 |
如需定期执行节点任务,请根据业务需求配置调度信息。
完成任务配置后,单击保存节点任务。
步骤三:Flink SQL Batch节点发布与运维
节点任务配置完成后,需对节点进行发布。
任务发布后,您可以单击发布到生产环境下方的去运维,在运维中心查看周期任务的运行情况。详情请参见运维中心入门。