Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统。实时计算广泛采用Kafka作为流式数据的数据源表和结果表。

Kafka源表数据解析流程通常为:Kafka Source Table -> UDTF -> Realtime Compute -> Sink,详情请参见创建消息队列Kafka源表

配置面板说明

参数 描述 备注
血缘表名 任务中表的唯一标志,不能与任务中其他血缘表重名。 无。
定义列 定义要读取的Kafka字段列表。 Kafka的列定义必须依次为messageKey varbinary、message varbinary、topic varchar、partition int和offset bigint,顺序不可以更改。
Kafka对应版本 Kafka对应版本。 无。
读取的单个topic 读取的单个topic。 可选项包括Kafka08Kafka09Kafka010Kafka011
读取一批topic的表达式 读取一批topic的表达式。 无。
启动位点 启动位点。
  • EARLISET从Kafka最早分区开始读取数据。
  • Group_OFFSETS根据Group读取数据。
  • LATEST从Kafka最新位点开始读取数据。
  • TIMESTAMP从指定的时间点开始读取数据(Kafka010、Kafka011支持)。
定时检查是否有新分区产生 检查是否有新分区产生的时间间隔,单位为ms。 无。
额外的KafkaConsumer配置项目 额外的KafkaConsumer配置项目。 无。

可选扩展参数

  • Kafka08
    "consumer.id","socket.timeout.ms","fetch.message.max.bytes","num.consumer.fetchers","auto.commit.enable","auto.commit.interval.ms","queued.max.message.chunks", "rebalance.max.retries","fetch.min.bytes","fetch.wait.max.ms","rebalance.backoff.ms","refresh.leader.backoff.ms","auto.offset.reset","consumer.timeout.ms","exclude.internal.topics","partition.assignment.strategy","client.id","zookeeper.session.timeout.ms","zookeeper.connection.timeout.ms","zookeeper.sync.time.ms","offsets.storage","offsets.channel.backoff.ms","offsets.channel.socket.timeout.ms","offsets.commit.max.retries","dual.commit.enabled","partition.assignment.strategy","socket.receive.buffer.bytes","fetch.min.bytes"
  • Kafka09
  • Kafka010
  • Kafka011

Kafka版本对应关系

扩展参数 Kafka版本
Kafka08 0.8.22
Kafka09 0.9.0.1
Kafka010 0.10.2.1
Kafka011 0.11.0.2