数据倾斜

更新时间:
复制为 MD 格式

以下为数据倾斜相关治理项的处理指导。

关联治理项:DG-C-2

如果任务数据分布不均,计算引擎层面执行的时候会出现长尾效应,部分实例运行时间大幅高于其它实例平均运行时长,会导致整体任务执行时间变长。

适用数据源

  • MaxCompute

规则判断

长尾的任务实例的耗费时长比其它实例平均值多15分钟及以上。

处理指南

产生数据倾斜的根本原因是:有少数fuxi实例处理的数据量超过其它实例处理的数据量,导致少数实例的运行时长超过其它实例的平均运行时长,从而导致整个任务的运行时间较长,造成任务延迟。数据倾斜的解决方案请参见MaxCompute的数据倾斜优化文档和其它计算长尾调优

注意事项

暂无