资源分析

资源分析为您展示全局的资源消耗增速、资源消耗分布和资源治理概况。本文为您介绍如何查看全局指标、治理健康度、趋势分析和项目分析。

计算/存储健康分计分说明

  • 存储健康分:表初始100分, 根据通用计算治理项命中的情况进行扣分, 以表的大小为权重进行汇总计算, 最终汇总到个人/项目/租户粒度。

  • 计算健康分:节点初始100分, 根据通用计算治理项命中的情况进行扣分。 最终汇总到个人/项目/租户粒度。

治理对象

分数指标

打分规则

存储健康分

物理表和逻辑表的权重为:物理表总存储分*70%+逻辑表总存储分*30%

物理表

单物理表分数

初始总分为100分。

  • 空物理表扣10分。

  • 废弃物理表扣40分。

  • 未管理的物理表扣20分。

  • 生命周期过长的物理表扣10分。

总物理表分数

计算口径为:各物理表的加权平均数。

说明

物理表权重为表的存储大小,空表大小默认1。

逻辑表

单逻辑表分数

初始总分为100分。

  • 空逻辑表扣20分。

  • 黑盒物化的空逻辑表扣30分。

  • 废弃逻辑表扣30分。

  • 未管理的逻辑表扣20分。

总逻辑表分数

计算口径为:POW(sum(逻辑表明细分) /逻辑表总分数,4) / 1000000

计算健康分

总分计算规则POW(sum((节点明细分)/生产环境节点日运行数量,4) / 1000000

任务节点

单计算节点分数

初始总分100分。

  • 数据膨胀扣10分。

  • 数据倾斜扣分规则为((最大inst执行时间/平均inst执行时间-2)*0.5)。

  • 节点报错扣分规则为(pow(2,7天内出错次数-1)-1)。

  • 空表导入扣50分。

  • 输入为空扣50分。

  • 产出表未读取扣50分。

  • 暴力扫描扣50分

公式如下:

100-数据膨胀-数据倾斜-节点报错-空表导入-输入为空-产出表未被读取-暴力扫描。

计算口径如下:

pow(greatest(0,100-所有扣分)),4)/1000000

资源分析页面介绍

  1. 在Dataphin首页,在顶部菜单栏选择治理 > 资源治理

  2. 在左侧导航栏选择资源管理 > 资源分析,进入资源分析报告页面。

  3. 您可以查看Dataphin全局指标(图示①)、治理健康度(图示②)、趋势分析(图示③)、项目分析(图示④)。

    image

全局指标

全局指标包含业务来源表总任务数总表数项目数开发者数数据回流表6个指标。

  • 业务来源表:以计算引擎源为同步目标,以物理数据源(业务)为来源的同步数据表数量。

  • 总任务表:报告日期对应的任务实例总数。

  • 总表数:全局数据表总数,包括开发和生产两类项目中的逻辑表和物理表。

  • 项目数:全局项目总数,包括生产和开发两类项目。

  • 开发者数:Dataphin成员列表中成员数量的总和。

  • 数据回流表:以计算引擎源为数据来源,以物理数据源(业务)为目标的同步数据表的数量。

治理健康度

健康度包括计算存储两部分。

  • 计算健康分:为您展示报告日期当天的计算健康评分。健康分是根据健康分高低进行分段评估:

    • 大于等于85分,健康等级显示为。同时提示您状况不错,保持住哦!

    • 大于等于60分小于85分,健康等级显示为,同时提示您刚及格,请继续改进!

    • 小于60分,健康等级显示为,同时提示您尚未及格,抓紧提高分数!

  • 计算消耗:为您展示计算治理领域消耗的资源,1cm代表1个核占用1分钟,1cu代表1个核占用1天。计算口径如下:

    • 1 core*60 s = 1 CM --表示单核CPU跑了一分钟

    • 24 h* 60 CM = 1 CU --表示单核CPU跑了一天

    • 1000 CU = 1 KCU

    形式说明如下:

    • 1000CM以内,使用CM单位。例如987CM。

    • 超过1000CM,使用CU单位。例如1200CM=0.83CU

    • 超过1000CU,使用KCU单位。例如1100CU=1.1KCU

    说明
    • 小数均保留小数点后两位,您可以使用更高级单位进行量级换算。

    • 计算消耗中的计算为底层任务运算实际消耗的CPU时间。例如一个任务占用了1核CPU,持续运算了1天,计算消耗即为 1CU。

  • 存储健康分:为您展示报告日期当天的存储健康评分。

  • 存储消耗:为您展示治理领域消耗的存储资源。

  • 说明

    存储单位为B/KB/MB/GB/TB/PB/EB/ZB。

    当计算引擎为Impala时,数据表为Kudu表,Dataphin将无法为您获取存储量信息。

  • 重点关注项目:计算部分展示计算健康分最低的10个项目,存储部分展示存储健康分最低的10个项目。

  • 待提升管理个人:计算部分展示计算健康分最低的10个人,存储部分展示存储健康分最低的10个人。

趋势分析

趋势分析为您展示了全局的存储计算在一定的时间周期内的数据趋势,包括存储消耗的数据趋势和计算健康分、计算消耗、存储健康分,助您分析数据的稳定性。image趋势分析中,默认以上图中的标识①处选择的报告日期为基础,展示最近30天内全局的数据趋势:

  • 单击趋势分析后的存储,进入存储健康分页面。默认展示30天内存储健康分存储健康分(均值)的数据趋势。

    您可以将鼠标悬浮在具体的日期上,查看以此日期为基础的最近7天内存储健康分(均值)和该日期的存储健康分。通过比较存储健康分(均值)和存储健康分判断数据趋势的稳定性,存储健康分(均值)和存储健康分差距越小,数据的稳定性越好。例如上图中的标识③所示,以2023-01-18为基础的最近7天内存储健康分(均值)为71.41分,2023-01-18当天的存储健康分为71.38分。

    根据业务需求,您可以在上图中的标识②处选择报告日期的区间,查看该区间周期内存储健康分存储健康分(均值)的数据趋势。例如,时间区间选择为2022-12-30至2023-01-04,下图中显示了2022-12-30至2023-01-04时间区间内存储健康分和存储健康分(均值)的数据趋势,鼠标悬浮的位置展示2023-01-02当天的存储健康分为72.69,以2023-01-02为基础的最近7天存储健康分(均值)为72.23分。image

  • 在存储健康分页面,单击页面右上角的存储消耗,默认展示30天内存储消耗存储消耗(均值)的数据趋势。image

    说明

    数据展示的方式及意义与存储健康分页面一致。

  • 单击趋势分析后的计算,进入计算健康分页面。默认展示30天内计算健康分计算健康分(均值)的数据趋势。

    说明

    数据展示的方式及意义与存储健康分页面一致。

  • 计算健康分页面,单击页面右上角的计算消耗,默认展示30天内计算消耗计算消耗(均值)的数据趋势。

    说明

    数据展示的方式及意义与存储健康分页面一致。

项目分析

项目分析模块默认以项目和业务板块为维度,为您展示所有项目下的项目名称业务板块任务数表数量计算量存储量计算分存储分管理员待治理项信息。

您可以通过在搜索框中输入项目名称的关键字进行快速筛选,或通过单击图标,选择环境和业务板块进行筛选,查看某个项目粒度下的详细信息。

  • 项目名称:该项目的名称。

  • 业务板块:该项目所属的业务板块。

  • 任务数:只取生产环境的任务数,包括同步任务和代码任务。

  • 表数量:项目内所包含的表数量,包括物理表和逻辑表。

  • 计算量:项目内所有任务执行所消耗的计算量,单位为CU。

  • 存储量:项目内所有数据表所占用的存储空间,MaxCompute引擎的存储大小是三副本,Hadoop系列引擎的存储大小是单副本。

    说明

    副本指的是一份数据可以在不同的节点上存储,这些节点上存储的每份数据相同,数据副本是增加数据存储冗余来防止数据丢失。

    当计算引擎为Impala时,数据表为Kudu表,Dataphin将无法为您获取存储量信息。

  • 计算分:项目粒度的计算健康分。

  • 存储分:项目粒度的存储健康分。

  • 管理员:当前项目的管理员信息。

  • 待治理项:待治理的对象数。