查看调度资源大盘

调度资源大盘展示Dataphin集群已配置调度资源的使用及分配情况。您可以查看并分析全局资源总量配置及单个任务资源分配的情况,可以有效地提升资源利用率并降低成本,同时也能减少因调度资源紧张而造成大量任务堆积的可能性,增强平台的稳定性。

前提条件

  • 请联系Dataphin部署团队部署Prometheus监控并采集监控数据,才可正常使用调度资源大盘。

  • 元仓租户下管理中心>资源设置调度资源大盘开关已开启。操作详情请参见资源设置

功能说明

  • 调度资源大盘从资源分配资源消耗两个视角为您提供Dataphin集群调度资源的统计分析,核心关注CPU和内存两个指标。此外,针对资源利用率较低可能造成资源浪费、或利用率过高可能产生内存溢出等风险的任务,通过待优化任务列表进行展示,便于您及时发现并处理,增强平台稳定性并减少资源成本消耗。

  • 资源大盘共有三个模块(资源分配、资源消耗和建议优化任务),您可以通过查看当前最新快照值,快速定位占用资源较多导致任务堆积的阻塞任务并及时处理;也可以根据一段时间内的趋势变化,判断是否有优化空间,以提升资源利用率。

数据统计范围

关于调度资源大盘的数据统计频率和数据统计范围说明如下:

  • 数据统计频率:每分钟统计1次。针对分配资源,取当前时间点的快照值;针对消耗资源,取过去1分钟内的峰值(即分钟内峰值)。每次页面刷新触发页面数据更新。

  • 数据统计范围

    • 全局资源消耗全局资源分配:统计当前租户所有运行环境下所有任务实例对应的分配值和消耗值。

    • 建议优化任务:仅统计生产环境(Basic和Prod项目)中,独享运行容器的周期任务(不包括共享容器的SQL任务及代码模板任务)。

调度资源大盘入口

  1. 请参见运维中心入口,进入运维中心。

  2. 进入运维中心后,单击左侧导航栏调度资源大盘,进入调度资源大盘页面。

    image

全局资源分配

全局资源分配为您展示当前统计时间节点对应的CPU、内存分配值占资源总量的比例及历史资源分配趋势图。

image

全局资源分配指标释义

全局资源分配的指标释义如下表所示。

指标

描述

CPU总量

调度集群可用的CPU总量(不包括系统消耗)。

已分配CPU

当前统计时间点已分配给任务的CPU总量。

CPU分配率

当前统计时间点对应的已分配CPU/CPU总量(结果精确到后2位百分点)。

内存总量

调度集群可用的内存总量(不包括系统消耗)。

已分配内存

当前统计时间点已分配给任务的CPU总量。

内存分配率

当前统计时间点对应的已分配内存/内存总量(结果精确到后2位百分点)。

在资源分配趋势图中,您可以快捷选中最近3小时、6小时、12小时、24小时、3天和7天时间段,查看资源分配趋势。资源分配趋势图的横轴按照选中的开始和结束时间,并均匀展示对应的时间点;纵轴资源分配率,固定为0%、20%、40%、60%、80%、100%。同时您将鼠标悬停至某时间点时显示当前时间点的CPU分配值、CPU分配率、内存分配值和内存分配率。

全局资源分配优化建议

建议您着重关注CPU分配率内存分配率,优化建议如下:

  • 当资源分配率持续较低时,可能大部分资源未被利用,会造成浪费。您可以考虑降低资源总量,以节省成本。

  • 当分配率持续过高时,可能出现任务因等待资源而延迟运行,或内存不足而运行失败的情况。您需要考虑增加资源总量。

全局资源消耗

全局资源消耗为您展示全局任务实际消耗的资源和预分配资源的对比及波动趋势。

CPU分配消耗趋势

image

全局资源分配的指标释义如下表所示。

参数

描述

CPU分配值

每个统计时间点已分配给任务的CPU总量。

CPU消耗值

每个统计时间点任务执行实际消耗的CPU总量。

CPU消耗率

每个统计时间点对应的CPU消耗值/CPU分配值。

运行中实例数

每个统计时间点状态为运行中的实例总数,包括周期实例、补数据实例、手动实例,并分别统计共享运行容器和独享运行容器的实例数,以作为并发度控制的参考。

您可以快捷选中最近3小时、6小时、12小时、24小时、3天和7天时间段,查看资源消耗趋势。资源消耗趋势图的横轴按照选中的开始和结束时间,均分12段,展示对应的时间点;纵轴左侧展示资源量,按照当前集群可用资源总量,均分5段;纵轴右侧展示实例数。

内存分配消耗趋势

image

全局资源分配的指标释义如下表所示。

参数

描述

内存分配值

每个统计时间点已分配给任务的内存总量。

内存消耗值

每个统计时间点任务执行实际消耗的内存总量。

内存消耗率

每个统计时间点对应的内存消耗值/内存分配值。

运行中实例数

每个统计时间点状态为运行中的实例总数,包括周期实例、补数据实例、手动实例,并分别统计共享运行容器和独享运行容器的实例数,以作为并发度控制的参考。

您可以快捷选中最近3小时、6小时、12小时、24小时、3天和7天时间段,查看资源消耗趋势。资源消耗趋势图的横轴按照选中的开始和结束时间,均分12段,展示对应的时间点;纵轴左侧展示资源量,按照当前集群可用资源总量,均分5段;纵轴右侧展示实例数。

消耗值和分配值相差较大时,建议您已通过优化任务列表查询消耗率过低的任务,调整资源配置以提升整体资源利用率。详细说明如下:

  • 如果持续一段时间内整体资源消耗值和分配值相差较大,建议您查看建议优化的任务明细,适当降低部分任务分配值,以提升资源利用率。

  • 如果持续一段时间内整体消耗值和分配值相差不大,则整体资源分配较为合理。可基于单个任务的历史运行情况,结合运行时效性和稳定性要求考虑是否需要增加部分核心任务的分配值。

建议优化任务

image

建议优化任务为您展示资源消耗率超过或低于特定阈值的任务明细。您可以在任务获取充足资源稳定运行的前提下,灵活调整资源配置,避免资源分配不足影响任务正常调度,或分配过多造成资源浪费。

优化任务指标释义

您可以通过项目、任务类型、消耗率阈值筛选建议优化任务。列表项指标释义如下表所示。

指标

描述

消耗率

截止到统计时间为止,该任务对应的最近1次运行的实例,消耗资源的峰值。

  • 消耗率较低列表

    默认按照按消耗率从低到高的顺序进行排列,您可以切换为按最近1次运行时长从长到短进行排序。

    gagaga

  • 消耗率较高列表

    默认按照按消耗率从低高到低的顺序进行排列。

    gagaga

近7次消耗率

该任务对应的周期实例和补数据实例,每次运行资源消耗峰值占当次分配资源的百分比,取最近7次运行数据。

平均运行时长

该任务对应的周期实例和补数据实例,最近7次运行的平均时长。

优化任务关注建议

  • 某任务持续一段时间内资源分配值远大于消耗值,且运行时间较长,建议您重点关注,避免影响即席查询等任务的执行,影响下游业务使用。

  • 某任务持续一段时间内资源分配值远大于消耗值,但运行时间较短,建议您适当关注,可将空余资源分配给其他资源紧张的任务。

  • 某任务持续一段时间内资源消耗值接近于分配值,建议您适当关注,避免因资源不足而延迟运行或运行失败。

  • 某任务内存消耗率达到过100%,建议您重点关注,适当增加内存分配,避免后续由于内存溢出等异常运行失败,影响数据产出。

任务资源详情

您可按照下图操作指引,查看任务资源详情。任务资源详情展示最近1次运行详情和最近7次运行趋势,为您优化资源配置提供分析基础。gagaga

参数

描述

任务

支持切换查看不同任务的资源详情。

基本信息

目标任务的基本信息,包含任务名任务类型调度日期

资源详情

资源统计范围。默认为最近1次运行详情,单击资源详情下拉列表可切换为最近7次运行趋势

资源分配消耗趋势

资源分配消耗趋势图。您可以通过该趋势图直观的查看任务运行时间范围内的资源分配消耗情况。