导入Kafka数据的使用限制-日志服务-阿里云

备案控制台

输入文档关键字查找

本文介绍导入Kafka数据到日志服务所涉及的使用限制。

采集限制


限制项	说明
压缩格式	Kafka Producer采用的压缩格式需被限制为gzip、zstd、lz4或snappy。其他压缩格式的Kafka数据会被丢弃。数据处理流量观测仪表盘中的写失败条数代表被丢弃的数据条数。如何查看，请参见查看导入配置。
最大Topic数量	单个数据导入配置最大支持指定10,000个Topic。
单条日志大小	单条日志最大为3 MB。单条日志大小超过限制时，该日志会被丢弃。数据处理流量观测仪表盘中的写失败条数代表被丢弃的数据条数。如何查看，请参见查看导入配置。
起始位置	仅支持指定最早和最晚位置。不支持从指定时间的位置开始导入。

配置限制


限制项	说明
数据导入配置数量	单个Project允许创建的所有类型的导入配置总数最大为100个。如果您有更大的使用需求，请提工单申请。
带宽限制	数据导入任务通过VPC网络读取阿里云Kafka集群的数据时，默认支持的最大网络带宽为128 MB/s。如果您需要更大的带宽，请提工单申请。

性能限制


限制项	说明
并发子任务数量	日志服务后台会自动根据Topic数量，创建多个导入子任务进行并发导入。每个子任务最大支持50 MB/s的处理速度（解压后的数据）。 Topic数量超过2,000时，日志服务会创建16个子任务。 Topic数量超过1,000时，日志服务会创建8个子任务。 Topic数量超过500时，日志服务会创建4个子任务。 Topic数量小于等于500时，日志服务会创建2个子任务。如果您有更大的使用需求，请提工单申请。
Topic Partition数量	Kafka Topic的Partition数量越多，越利于通过扩容子任务来提升处理吞吐。针对数据量较大的Topic，您可以适当增加其Partition数量（建议不低于16个）。
Logstore Shard数量	日志服务的写性能取决于目标Logstore的Shard数量（单个Shard支持5 MB/s的写入）。当数据量较大时，建议增加目标Logstore的Shard数量。具体操作，请参见管理Shard。
数据是否压缩	当数据量较大时，建议在写数据到Kafka时就进行压缩，这样可显著节省通过网络读取的数据量。网络传输阶段往往比解压数据阶段更耗时，特别是采用公网导入数据时。
网络	如果是VPC环境下的阿里云Kafka集群，您可通过VPC网络读取数据，节省公网流量且传输速度快（达到100 MB/s以上的带宽）。采用公网导入数据时，网络的性能和带宽无法保障，容易出现导入延迟问题。

其他限制


限制项	说明
元数据同步延迟	导入任务每10分钟与Kafka集群同步一次集群的元数据信息。对于新增的Topic、Partitons，导入其元数据会存在10分钟左右的延迟。说明采用最迟策略读取数据时，对于新增Topic，最初写入的数据（最大10分钟的数据）将被跳过。
Topic Offset有效时间	Topic Offset的最大有效时间为7天，即如果有一个Topic在7天没有读取到数据，之前的Offset会被丢弃。后续有新数据时，按照导入配置中的起始位置的设置来决定要使用的Offset。

上一篇：导入Elasticsearch数据下一篇：数据加工

该文章对您有帮助吗？