Flink SQL Batch节点使您能够使用标准SQL语句定义和执行数据处理任务,适用于大数据集的分析与转换,包括数据清洗和聚合。该节点支持可视化配置,为您提供高效且灵活的大规模数据批处理方案。在Flink SQL Batch节点中,您可以使用类SQL语句完成大规模数据加工的批处理。本文将介绍如何在Flink SQL Batch节点中配置和使用SQL语句来完成数据的批处理。
前提条件
已创建工作空间,并在管理中心绑定实时计算Flink版计算资源,详情请参见绑定计算资源(参加新版数据开发公测)。
已创建Flink SQL Batch节点,详情请参见创建周期任务。
步骤一:开发Flink SQL Batch节点
在Flink SQL Batch节点编辑页面,执行如下开发操作,完成节点任务的开发。
开发SQL代码
在SQL编辑区域开发任务代码,您可在代码中使用${变量名}的方式定义变量,并在节点编辑页面右侧调度配置的调度参数中为该变量赋值。实现调度场景下代码的动态传参,调度参数使用详情请参见调度参数支持格式,示例如下。
--创建源表datagen_source。
CREATE TEMPORARY TABLE datagen_source_${var}(
name VARCHAR
) WITH (
'connector' = 'datagen',
'number-of-rows' = '1000'
);
--创建结果表blackhole_sink。
CREATE TEMPORARY TABLE blackhole_sink_${var}(
name VARCHAR
) WITH (
'connector' = 'blackhole'
);
--将源表数据插入到结果表。
INSERT INTO blackhole_sink_${var}
SELECT
name
FROM datagen_source_${var};
该示例参数bizdate
对应的参数值为$[yyyymmdd]
,通过设置该参数可以实现对每日新增数据的批量同步处理。
步骤二:配置Flink SQL Batch节点
您可根据业务情况,参照下面的参数描述信息配置Flink SQL Batch节点任务。
配置Flink资源
您可在编辑页面右侧调度配置的Flink资源信息中配置如下参数信息,详情请参见配置作业部署信息。
参数 | 描述 |
参数 | 描述 |
Flink 集群 | 在管理中心绑定的全托管Flink计算资源名称。 |
Flink 引擎版本 | 您可根据实际情况选择引擎版本。 |
调度资源组 | 选择与Flink网络连通的Serverless资源组。 |
Job Manager CPU | 根据Flink的最佳实践,JobManager至少需要0.5核CPU和2GiB内存来确保稳定运行,建议配置为1核CPU和4 GiB内存,最大不超过16核CPU。具体配置应根据集群规模和作业复杂度调整。 |
Job Manager Memory | JobManager的内存配置影响其处理调度和管理任务的能力,推荐配置范围是2 GiB到64 GiB,以确保稳定高效的运行。具体大小应根据集群规模和作业需求调整。 |
Task Manager CPU | TaskManager的CPU资源配置影响其任务处理能力。根据Flink的最佳实践,建议配置至少0.5核CPU和2 GiB内存,推荐1核CPU和4 GiB内存,最大不超过16核CPU。具体配置应依据实际需求调整。 |
Task Manager Memory | TaskManager的内存配置决定了其处理任务的数据量和性能。为了确保任务稳定执行和高效处理,内存大小至少应为2 GiB,最大可设置为64 GiB。 |
并发度 | 决定了Flink作业中任务的并行执行数量,较高的并发度可以提高处理速度和资源利用率,您需要根据集群资源和作业特性进行合理设置。 |
最大Slot数 | 代表了Task Manager上可以分配给任务的固定大小的资源。每个Slot可以运行一个task或operator实例。您可以根据实际资源情况调整最大Slot数。 |
每个TaskManager Slot数 | 每个TaskManager的Slot数决定了它可以并行执行的任务数量,您可通过调整Slot配置优化资源利用和作业的并行处理能力。 |
(可选)配置调度参数
您可在编辑页面右侧调度配置的调度参数区域单击添加参数,并编辑相应的参数名、参数值信息,方便在代码中动态使用。
(可选)配置Flink运行参数
您可在编辑页面右侧调度配置的Flink运行参数区域中配置相关运行参数信息,详情请参见配置作业部署信息。
Flink运行参数配置时,其编写规范与VVP(Ververica Platform)保持兼容,支持直接采用YAML语法格式编写配置,无需添加分号等特殊符号实现换行。
如需定期执行节点任务,请根据业务需求配置调度信息(调度策略、调度时间、调度依赖及节点输出参数),详情请参见调度配置。
完成任务配置后,单击保存。
步骤三:发布Flink SQL Batch节点并运维
相关文档
- 本页导读 (1)
- 前提条件
- 步骤一:开发Flink SQL Batch节点
- 开发SQL代码
- 步骤二:配置Flink SQL Batch节点
- 配置Flink资源
- (可选)配置调度参数
- (可选)配置Flink运行参数
- 步骤三:发布Flink SQL Batch节点并运维
- 相关文档