您可为实时集成任务配置运行时资源,实时集成时将使用所配置的资源进行任务运行。本文将为您介绍如何配置实时集成资源。
操作步骤
在Dataphin首页的顶部菜单栏,选择研发 > 数据集成。
在顶部菜单栏选择项目(Dev-Prod模式还需要选择环境)。
在左侧导航栏中选择集成 > 实时集成。
单击目标实时集成任务名称,在当前实时集成任务页签顶部菜单栏中单击资源配置。
在资源配置区域,配置实时集成任务资源。
参数
描述
增量同步
引擎版本
当前实时集成任务所使用的计算引擎及版本信息。
Job Manager CPU、Task Manager CPU
默认为1。当实时计算源使用Ververica Flink、Flink(K8s部署模式)时,支持输入2位小数;当实时计算源使用Flink(Yarn部署模式)时,仅支持输入正整数。
Job Manager Memory、Task Manager Memory
默认为2Gi。可填入数字(单位Byte),或填入内存单位为Gi/Mi的数字。例如1024000、1024Mi、1.5Gi。
数据刷新周期/批量写入周期
仅当实时集成目标库为Hive时,需配置数据刷新周期。
数据湖表格式为不选择:默认15分钟。提交周期最小为1分钟,最大为60分钟。数据写入Hive目标文件周期时长,周期时间越小,Hive目标文件越多,影响Hadoop集群性能。
数据湖表格式为Hudi:刷新周期可选择为分钟或秒,最小为5秒,最大为60分钟。
仅当实时集成目标库为MaxCompute时,需配置批量写入周期,即数据写入MaxCompute数据表的刷新周期。默认30s。最小为5秒,最大为60分钟。
说明当实时集成目标库不为Hive或MaxCompute时,不支持配置此参数。
全量同步
开发任务调度资源组、生产任务调度资源组
项目为Dev-Prod模式时,支持配置开发任务调度资源组和生产任务调度资源组;项目为Basic模式时,仅支持配置调度资源组。默认选择为项目默认资源组(租户默认资源组),可单击查看资源组详情,前往管理中心 > 系统设置 > 资源设置 > 资源组设置中查看资源组详情。
开发任务调度资源组:开发任务在执行时所消耗的资源,不同资源组之间资源相互隔离互不影响。任务提交后可在开发环境任务的属性中修改。
生产任务调度资源组、调度资源组:任务生成的实例调度所消耗的资源,不同资源组之间资源相互隔离互不影响。任务提交后仅可在生产环境的运维中心修改。
说明仅当实时集成任务的同步方案选择为实时增量+全量时,支持配置此项。
单击确定,完成实时集成任务资源配置。