本文介绍导入OSS数据到日志服务所涉及的使用限制。

采集限制

限制项说明
单个文件大小
  • 如果是Snappy压缩格式的文件(非Framing-format格式),最大支持350 MB。
  • 如果是其他格式的文件,最大支持5 GB。

单个文件大小超过限制时,导入任务会忽略整个文件。

单条数据大小单条数据最大为3 MB。数据大小超过限制时,该数据会被丢弃。

数据处理流量观测仪表盘中的写失败条数代表被丢弃的数据条数。如何查看,请参见查看导入配置

文件更新针对更新过的OSS文件,数据导入任务会重新进行全量导入。即之前已导入过的文件,又追加了部分内容,那么这个文件中数据将再次被全部导入。
新文件发现延迟发现新文件的最小间隔支持设置为1分钟。当待导入的文件特别多时,可能存在更多延迟。

配置限制

限制项说明
数据导入配置数量单个Project允许创建的所有类型的导入配置总数最多为100个。如果您有更大的使用需求,请提工单申请。

性能限制

限制项说明
并发子任务数量日志服务后台会自动根据待导入的文件数量,创建多个导入子任务进行并发导入。每个导入配置默认最多生成8个子任务,每个子任务最大支持10 MB/s的处理速度(针对解压后的数据),即默认情况下,导入任务支持最大80 MB/s的处理速度。

如果您有更大的使用需求,请提工单申请。

Logstore Shard数量日志服务的写性能取决于目标Logstore的Shard数量(单个Shard支持5 MB/s的写入)。当数据量较大时,建议增加目标Logstore的Shard数量。具体操作,请参见管理Shard
归档文件的读取如果待导入的文件是归档类型,则需要解冻后才能被读取。

一般情况下,解冻一个文件大约需要1分钟。

文件大小相同数据总量的情况下,平均文件大小越大,读取吞吐越高。反之,小文件越多,读取吞吐越低。
网络如果OSS Bucket和日志服务Project处于同一地域,可节省公网流量且传输速度快。

跨地域导入时,读取OSS文件受网络影响较大,性能相对较差。

新数据导入延迟当存量文件较多时,如果您未开启使用OSS元数据索引配置,则可能无法按照新文件的检查周期对新文件进行采集。

存在100万左右的存量文件时,新文件采集的延迟时间大约为2分钟。其他数量的存量文件,可依次进行线性类推。