资源观测

资源观测提供某段时间内,对多种资源(如数据传输服务、计算资源、存储资源等)的监测情况,您可通过观测各指标的曲线图或图表,优化和调整作业的执行计划及资源配置,提高作业的执行效率和性能。本文为您介绍如何查看MaxCompute的资源使用情况。

开通地域

当前各类资源已支持资源观测的地域如下:

资源类型

已开通地域

计算资源

华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、华北6(乌兰察布)、西南1(成都)、中国香港、美国(硅谷)、美国(弗吉尼亚)、马来西亚(吉隆坡)、日本(东京)、德国(法兰克福)、印度尼西亚(雅加达)、英国(伦敦)、新加坡

存储资源

华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、西南1(成都)、华北3(张家口)、华北6(乌兰察布)

数据传输服务

华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、西南1(成都)

作业性能观测

华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、日本(东京)、美国(硅谷)、美国(弗吉尼亚)、德国(法兰克福)、英国(伦敦)、沙特(利雅得)

开放存储

华东2(上海)、华南1(深圳)

权限说明

  • 阿里云账号:拥有资源观测的所有查看和操作权限。

  • RAM用户:需获取RAM权限,详情请参见RAM权限

计算资源

您可以查看包年包月及按量付费Quota的CU资源的消耗情况。

操作步骤

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏单击资源观测

  3. 资源观测页面选择计算资源页签。

  4. 选择一级Quota名称和需要观测的时间区间。

    说明

    为优化页面体验,每个指标至多支持展示60个时间点,因此当时间范围大于1h时,图表默认使用区间范围内(所选时间范围的分钟数/60)的平均值聚合数据,您可以根据自身需求更改聚合算法最大值,以便更全面地分析资源消耗情况。

  5. 单击目标二级Quota左侧的image.png图标,可以查看二级Quota的资源消耗趋势图,支持同时展开多个二级Quota图表。

  6. 查看各个二级Quota关联的项目列表。

指标参数说明

指标名称

说明

CPU资源

当前Quota组各类CPU使用量的趋势。单击某个时间点,可以展示该时刻对应的作业快照列表。

Memory资源(单位:MB/100)

当前Quota组各类内存使用量趋势。

重要

按量付费资源为共享型,计算作业按需抢占资源,不可指定用量。若单用户持续请求较高资源量,为保障其他用户正常使用按量付费计算资源,MaxCompute将对单用户的资源使用量进行限制。

Quota以及关联的项目列表:可查看对应二级Quota都被哪些项目定义为默认计算Quota。

存储资源

您可以查看当前地域下总存储用量以及各种存储类型占比情况,并根据项目和需要观测的时间区间去观测各类存储的变化趋势,以及详细的表或分区存储信息。

操作步骤

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏单击资源观测

  3. 资源观测页面,选择存储资源页签,即可查看当日总存储用量及存储分布情况。

  4. (可选)选择需要观测的时间段(默认为7d,即7天)和项目(默认为所有项目,最多支持手动选择8个项目),查看存储趋势

  5. (可选)在存储明细区域的项目明细页签,选择统计日期(默认为当天),查看各项目存储用量。

  6. (可选)在存储明细区域的表/分区明细页签,选择统计日期(默认为当天)和项目,查看项目中详细的表/分区存储用量。

指标参数说明

指标名称

说明

今日存储用量

当前地域下总存储用量以及各种存储类型占比情况,数据约每小时更新一次。

存储分布

当前地域下的项目数量、表数量及分区数量,数据每天更新。

存储趋势

  • 按存储类型分组:当前地域下的所有项目/所选项目的存储用量,以及各种类型存储用量随时间变化的趋势。

  • 按项目分组:以总存储用量最高的8个项目(默认)或所选项目为分组依据,展示不同类型存储用量随时间变化的趋势。

项目明细

当前地域下总存储大于0的项目在指定日期(可选一年范围内)的各类存储用量明细及总存储量近N(可选1、7、30)天同比。

表/分区明细

指定项目在指定日期(可选一年范围内)所有表/分区的存储类型、存储大小、近N(可选1、7、30)天同比。

数据传输服务

您可以查看数据传输服务共享资源组与包年包月独享资源组的资源使用情况,并根据项目和需要观测的时间区间观测各个指标的使用情况。

操作步骤

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏单击资源观测

  3. 资源观测页面选择数据传输服务页签。

  4. 选择要观测的Quota、项目和时间范围,查询各个指标的使用情况。

指标参数说明

指标名称

说明

请求并发数

当前资源组请求并发的曲线图,包括上传、下载和总并发数。

吞吐量(B/S)

当前资源组吞吐量的曲线图,包括上传和下载。

表访问热度(并发数)

选择使用方式(例如:Tunnel Batch上传)及表名称(例如:testtable),则表示当前资源组里使用Tunnel Batch方式上传的testtable表的并发数曲线图。

访问来源IP(B/S)

选择使用方式(例如:Tunnel Batch上传)及表名称(例如:testtable),则表示当前资源组里使用Tunnel Batch方式上传的testtable表的各访问来源IP每秒传输的数据量曲线图。

错误个数

当前资源组发生500429错误的个数曲线图。

Quota以及关联的项目列表:可查看对应二级Quota都被哪些项目定义为默认计算Quota。

开放存储

重要

开放存储功能当前在公测中,关于开放存储详情请参见开放存储概述

您可以查看开放存储资源的使用情况。

操作步骤

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏单击资源观测

  3. 资源观测页面,选择开放存储页签。

  4. 选择要观测的项目、表、任务发起人和时间区间,查询各个指标的使用情况。

指标参数说明

指标名称

说明

StorageAPIRead

通过开放存储(Storage API)读取的总数据量。

StorageAPIWrite

通过开放存储(Storage API)写入的总数据量。

作业性能观测

您可以查看计算作业的作业数量、CU用量以及作业运行时长情况,以此判断作业性能是否符合预期。

操作步骤

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏单击资源观测

  3. 资源观测页面,选择作业性能观测页签。

  4. 选择以下参数对作业进行过滤并分组,可以筛选出您希望查看的作业,按不同维度在图表视图中对各指标数据进行分组。

    参数

    说明

    时间范围

    必选。按照输入的时间范围(开始和结束时间)对执行完成的作业进行过滤。

    您可以选择已预置的时间范围或手动配置时间范围:

    • 1d:最近1天。

    • 3d:最近3天。

    • 7d:最近7天。

    • 选择具体时间段:单击时间范围下拉列表,选择需要查询的日期后,单击选择时间,选择目标时间段。

    说明

    默认时间范围为最近1天。时间范围最长支持7天,最小支持1小时。最多可以搜索最近45天的作业。

    项目选择

    按照MaxCompute项目名称进行过滤。

    说明

    默认选择所有项目。您可以自定义选择至多8个项目。

    Quota选择

    按照计算Quota进行过滤。

    说明

    默认选择所有计算Quota。您可以自定义选择至多8个二级Quota。更多计算Quota信息,请参见计算资源-Quota管理(新版)

    分组依据

    必选。根据图表类型,您可以按多个维度在图表视图中对数据进行分组展示。

    分组依据取值如下:

    • 不分组(默认):显示过滤范围内所有作业的各类指标随时间的变化趋势。

    • 项目:显示过滤范围内所有作业的各类指标按项目分组的情况。

      说明

      选择按项目分组时,必须在过滤参数中指定项目,至多不能超过8个项目。

    • 配额(Quota)显示过滤范围内所有作业的各类指标按二级Quota分组的情况。

      说明

      选择按Quota分组时,必须在过滤参数中指定Quota,至多不能超过8个二级Quota。

    • 作业类型:显示过滤范围内所有作业的各类指标按作业类型分组的情况。

      • SQL:SQL作业。

      • SQLRT:查询加速SQL作业。

      • LOT:MapReduce作业。

      • CUPID:Spark或Mars作业。

      • Algo_Task:机器学习作业。

      • GRAPH:图计算作业。

    • 作业结束状态:显示过滤范围内所有作业的各类指标按作业结束时的状态分组的情况。

      • Success:运行成功。

      • Failed:失败。

      • Cancelled:取消。

  5. 单击查询,查看各个指标的统计情况。

  6. (可选)选择数据汇总维度,可按照选择的时间维度查看各个指标的统计情况。

    参数

    说明

    按小时汇总

    即一小时为一个刻度,表示当前小时运行结束的作业的统计数据,默认按小时汇总。

    例如当前小时为2024-05-06 14:00,按小时汇总则显示2024-05-06 14:00至15:00区间内运行结束的作业各指标统计数据。

    按天汇总

    即一天为一个刻度,表示当天运行结束的作业的统计数据。

    例如当前日期为2024-05-06,选择按天汇总则显示2024-05-06 00:00至2024-05-07 00:00区间内运行结束的作业各指标统计数据。

  7. (可选)选择对比周期,可查看当前日期或小时减去对比周期天数得到的历史统计数据。

    默认无对比,可选前30天前7天以及前1天。例如2024-05-06 14:00前30天的对比数据就是2024-04-06 14:00的统计数据。

指标参数说明

  • CU用量趋势(单位:Core*H)

    指标名称

    说明

    CPU时(单位:Core*H)

    所选过滤范围内,已完成作业消耗的CPU时数量。

    1个小时消耗1个CPU Core,定义为1个CPU时。CPU时数量=CPU Core数量*时长。

    内存时(单位:GB*H)

    在所选过滤范围内,已完成作业消耗的内存数量。

    1个小时消耗1GB内存,定义为1个内存时。内存时数量=内存大小*时长。

    CPU时/内存时消耗TOP 10分析

    提供在所选过滤范围内消耗CPU时/内存时最多的前10个作业,共计/平均消耗CPU时/内存时最多的前10个Signature、ExtNodeId。

  • 作业运行时长(单位:秒)

    指标名称

    说明

    平均值

    在所选过滤范围内,已完成作业的平均作业时长。

    最大值

    在所选过滤范围内,已完成作业的最长作业时长。

    最小值

    在所选过滤范围内,已完成作业的最短作业时长。

    分位数

    在所选过滤范围内,已完成作业的某分位数(包括1、5、10、50、90、95、99分位数)作业时长。

    以99分位数为例,表示99%的作业在此时长内运行完毕。

    作业运行时长TOP 10分析

    提供在所选过滤范围内总运行时长最长的前10个作业,共计/平均总运行时长最长的前10个Signature、ExtNodeld。

  • 作业数趋势(单位:个):在所选过滤范围内,已完成运行的作业数量。

  • 作业扫描量趋势(单位:GB,自适应变化,以图表显示为准):在所选过滤范围内已完成作业扫描的数据量。

  • 单位CU时处理的作业扫描量趋势(单位:GB,自适应变化,以图表显示为准):在所选过滤范围内平均1 CU时处理的作业扫描量。1 CU时包含1 CPU Core和4 GB内存,计算方法为MAX(CPU时, 向上取整(内存时/4))

上述指标数据也支持您通过租户级别Information Schema自行统计,但需注意Information Schema task_history表中包含所有操作产生的任务实例,而控制台作业性能观测的指标仅统计消耗计算资源的作业,因此统计结果可能存在差异。

示例查询SQL如下:

SET odps.namespace.schema=TRUE;
SELECT to_char (end_time, 'yyyy-mm-dd hh'), -- 作业运行结束所在小时
       -- to_char (end_time, 'yyyy-mm-dd'), --若需要按天汇总,请使用此行替换上一行,表示作业运行结束时所在日期
       sum(cast(cost_cpu/100/3600 as DECIMAL(18,5) )) cost_cpuh, -- CPU时
       sum(cast(cost_mem/1024/3600 as DECIMAL(18,5) )) cost_memh, -- 内存时
       avg(datediff(end_time, start_time, 'ss')), -- 作业平均运行时长
       min(datediff(end_time, start_time, 'ss')), -- 作业最短运行时长
       max(datediff(end_time, start_time, 'ss'))  -- 作业最长运行时长
       -- status, --分组依据:status:作业状态;项目:task_catalog;作业类型:task_type。
FROM SYSTEM_CATALOG.INFORMATION_SCHEMA.tasks_history
WHERE ds>=to_char(date_add(getdate(),-7),'yyyymmdd')  -- 如需其他过滤条件可自行修改添加
and task_type in ('SQL','SQLRT','LOT','CUPID','ALgoTask')
GROUP BY to_char (end_time, 'yyyy-mm-dd hh')
         -- to_char (end_time, 'yyyy-mm-dd'), --若需要按天汇总,请使用此行替换上一行,表示作业运行结束时所在日期
         -- status, --分组依据:status:作业状态;项目:task_catalog;作业类型:task_type
order BY to_char (end_time, 'yyyy-mm-dd hh') ASC;
         -- to_char (end_time, 'yyyy-mm-dd'); --若需要按天汇总,请使用此行替换上一行,表示作业运行结束时所在日期

常见问题

  • 问题一:

    • 问题现象:按项目或配额(Quota)分组后,图例中缺失部分项目或配额(Quota)。

    • 问题原因:缺失的项目或Quota中的作业数为0。

  • 问题二:

    • 问题现象:选择对比周期后,对应对比时间的数据缺失。

    • 问题原因:可能是对比时间内项目或Quota未创建或已删除,也可能是该时间区间内项目或Quota中的作业数为0。

相关文档

观测资源使用情况后,您可根据需要对作业的执行计划与资源配置进行优化:

  • 进行资源调整,可参见配置Quota调整Quota资源组的Quota计划和时间计划等配置。

  • 调整作业执行的优先级,可参见作业优先级