调度资源大盘展示Dataphin集群已配置调度资源的使用及分配情况。您可以查看并分析全局资源总量配置及单个任务资源分配的情况,可以有效地提升资源利用率并降低成本,同时也能减少因调度资源紧张而造成大量任务堆积的可能性,增强平台的稳定性。
前提条件
请联系Dataphin部署团队部署Prometheus监控并采集监控数据,才可正常使用调度资源大盘。
功能说明
调度资源大盘从资源分配和资源消耗两个视角为您提供Dataphin集群调度资源的统计分析,核心关注CPU和内存两个指标。此外,针对资源利用率较低可能造成资源浪费、或利用率过高可能产生内存溢出等风险的任务,通过待优化任务列表进行展示,便于您及时发现并处理,增强平台稳定性并减少资源成本消耗。
资源大盘共有三个模块(资源分配、资源消耗和建议优化任务),您可以通过查看当前最新快照值,快速定位占用资源较多导致任务堆积的阻塞任务并及时处理;也可以根据一段时间内的趋势变化,判断是否有优化空间,以提升资源利用率。
数据统计频率
每分钟统计1次。针对分配资源,取当前时间点的快照值;针对消耗资源,取过去1分钟内的峰值(即分钟内峰值)。每次页面刷新触发页面数据更新。
调度资源大盘入口
在Dataphin首页的顶部菜单栏中,选择研发 > 任务运维。
在左侧导航栏选择概览 > 调度资源大盘,进入调度资源大盘页面。
租户资源大盘页面介绍
区块 | 说明 |
①资源概览 | 仅支持查看和统计公共调度集群分配的资源,包含CPU分配值和内存分配值。
说明 K8s架构下的Dataphin实例,若不支持自定义资源组功能,则仅展示CPU和内存的分配值。 |
②资源消耗 | 分别展示当前租户CPU和内存,在指定的时间和资源组内的消耗。
说明 若资源组筛选中选择全部资源组,则图中不展示可用上下限。 K8s架构下的Dataphin实例,若不支持自定义资源组功能,则不支持资源组筛选,且图中不展示可用上下限。 |
③建议优化任务 | 分别以CPU和内存维度展示当前租户的建议优化任务,仅统计生产环境中,使用公共调度集群资源的周期任务(不包含SQL等任务)。任务列表中包含以下参数:
您可以在列表右上方筛选符合要求的任务,支持的筛选项包含:
单击列表右上方的导出,将当前筛选条件下的任务列表导出为Excel,其中近7次消耗值的每一个值将使用半角逗号(,)分隔并放置在同一单元格中。 |
优化任务关注建议
某任务在一段时间内资源分配值远大于消耗值,且运行时间较长,建议您重点关注,避免影响即席查询等任务的执行,影响下游业务使用。
某任务在一段时间内资源分配值远大于消耗值,但运行时间较短,建议您适当关注,可将空余资源分配给其他资源紧张的任务。
某任务在一段时间内资源消耗值接近于分配值,建议您适当关注,避免因资源不足而导致运行延迟或运行失败。
某任务内存消耗率达到过100%,建议您重点关注,适当增加内存分配,避免后续由于内存溢出等异常导致运行失败,影响数据产出。