查看调度资源大盘

调度资源大盘展示Dataphin集群已配置调度资源的使用及分配情况。您可以查看并分析全局资源总量配置及单个任务资源分配的情况,可以有效地提升资源利用率并降低成本,同时也能减少因调度资源紧张而造成大量任务堆积的可能性,增强平台的稳定性。

前提条件

请联系Dataphin部署团队部署Prometheus监控并采集监控数据,才可正常使用调度资源大盘。

功能说明

  • 调度资源大盘从资源分配资源消耗两个视角为您提供Dataphin集群调度资源的统计分析,核心关注CPU和内存两个指标。此外,针对资源利用率较低可能造成资源浪费、或利用率过高可能产生内存溢出等风险的任务,通过待优化任务列表进行展示,便于您及时发现并处理,增强平台稳定性并减少资源成本消耗。

  • 资源大盘共有三个模块(资源分配、资源消耗和建议优化任务),您可以通过查看当前最新快照值,快速定位占用资源较多导致任务堆积的阻塞任务并及时处理;也可以根据一段时间内的趋势变化,判断是否有优化空间,以提升资源利用率。

数据统计频率

每分钟统计1次。针对分配资源,取当前时间点的快照值;针对消耗资源,取过去1分钟内的峰值(即分钟内峰值)。每次页面刷新触发页面数据更新。

调度资源大盘入口

  1. Dataphin首页的顶部菜单栏中,选择研发 > 任务运维

  2. 在左侧导航栏选择概览 > 调度资源大盘,进入调度资源大盘页面。

租户资源大盘页面介绍

区块

说明

资源概览

仅支持查看和统计公共调度集群分配的资源,包含CPU分配值内存分配值

  • CPU分配值:展示当前租户CPU的分配值(c)、可用量(c)和分配率(%)

  • 内存分配值:展示当前租户内存的分配值(G)、可用量(G)和分配率(%)

说明

K8s架构下的Dataphin实例,若不支持自定义资源组功能,则仅展示CPU和内存的分配值。

资源消耗

分别展示当前租户CPU和内存,在指定的时间和资源组内的消耗。

  • 时间筛选:默认选择3h,可选择最近3h6h12h24h3d7d,或自定义时间范围,其中自定义时间范围的起始时间跨度为[10分钟,15天]

  • 资源组筛选:默认选择全部资源组,可选择来自默认调度集群下的资源组,不支持选择来自注册调度集群的资源组。

  • CPU分配值/内存分配值:每个统计时间点已分配给任务的CPU/内存总量,图中将以MaxMin标注所选时间范围内的最大值和最小值。

  • 可用下限/可用下限:根据资源组筛选中所选的资源组,展示当前租户或所选资源组CPU/内存的可用上下限。

  • 运行中实例总数:每个统计时间点状态为运行中的实例总数,包括周期实例、补数据实例、手动实例。

  • 等待中实例总数:每个统计时间等待调度资源的实例数。

说明

若资源组筛选中选择全部资源组,则图中不展示可用上下限。

K8s架构下的Dataphin实例,若不支持自定义资源组功能,则不支持资源组筛选,且图中不展示可用上下限。

建议优化任务

分别以CPU内存维度展示当前租户的建议优化任务,仅统计生产环境中,使用公共调度集群资源的周期任务(不包含SQL等任务)。任务列表中包含以下参数:

  • 任务名称:展示任务名称和任务ID,单击任务名称跳转至任务运维 > 周期任务页面。

  • 运维负责人:当前任务的运维负责人。

  • 所属项目:当前任务所属的项目名称。

  • 最近一次分配CPU/最近一次分配内存:当前任务最近一次执行时,分配给此任务的资源总量。

  • 最近一次消耗CPU/最近一次消耗内存:当前任务最近一次执行时,实际消耗的资源总量。

  • 最近一次消耗率:当前任务最近一次执行时,资源的消耗率(资源消耗率=任务执行时实际消耗的资源总量/任务执行时已分配给任务的资源总量)。

  • 最近一次运行时长:当前任务最近一次执行时的运行时长。

  • 7次消耗值:该任务对应的周期实例和补数据实例,最近7次运行的资源消耗值。

  • 7次平均运行时长:该任务对应的周期实例和补数据实例,最近7次运行的平均时长。

  • 操作:您可在操作列对对应任务进行查看资源详情资源配置操作。

    • 查看资源详情:单击image图标,打开任务资源详情对话框,可查看当前任务的基本信息资源详情(最近1次运行详情或最近7次运行趋势)和资源分配消耗趋势

    • 资源配置:单击image图标,跳转至当前任务对应开发页面。

您可以在列表右上方筛选符合要求的任务,支持的筛选项包含:

  • 最近一次消耗率 >> 低于 >> 25%/50%/75%

  • 最近一次消耗率 >> 高于 >> 50%/75%/90%

  • 最近一次分配CPU/最近一次分配内存 >> TOP20/TOP50/TOP100

  • 最近一次消耗CPU/最近一次消耗内存 >> TOP20/TOP50/TOP100

单击列表右上方的导出,将当前筛选条件下的任务列表导出为Excel,其中7次消耗值的每一个值将使用半角逗号(,)分隔并放置在同一单元格中。

优化任务关注建议

  • 某任务在一段时间内资源分配值远大于消耗值,且运行时间较长,建议您重点关注,避免影响即席查询等任务的执行,影响下游业务使用。

  • 某任务在一段时间内资源分配值远大于消耗值,但运行时间较短,建议您适当关注,可将空余资源分配给其他资源紧张的任务。

  • 某任务在一段时间内资源消耗值接近于分配值,建议您适当关注,避免因资源不足而导致运行延迟或运行失败。

  • 某任务内存消耗率达到过100%,建议您重点关注,适当增加内存分配,避免后续由于内存溢出等异常导致运行失败,影响数据产出。