使用ARMS自定义可观测大盘及报警

更新时间:2025-03-12 05:26:04

应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云云原生可观测产品平台。基于ARMS提供的能力,您可以自定义一套PAI-EAS服务的可观测大盘,以及配置更加灵活的报警规则,帮助您全面详细地监控EAS指标数据。本文将向您介绍如何使用ARMS查看监控指标数据、配置可观测可视化大盘以及自定义监控报警等。

计费说明

使用ARMS服务会产生一定的费用,详细的计费说明,请参见ARMS计费说明

接入EAS监控指标数据

  1. 登录ARMS控制台,在左侧导航栏,单击接入中心

  2. 接入中心页面,单击左侧人工智能页签,然后单击阿里云 PAI EAS 模型在线服务image

  3. 在弹出面板的开始接入页签,选择数据存储地域并配置接入名称,然后单击确定

    大约需要等待1~2分钟,即可完成服务的接入。

    重要

    image

    当您打开高级监控指标开关时,将包含所有EAS服务和资源组相关指标。如果您需要自定义可观测大盘,建议您开启高级监控指标。如果您使用了自定义监控指标,这些指标也会包含在高级监控指标中,并且指标名会增加custom_前缀。

  4. 安装完成后,您可以单击接入管理,查看已接入环境的详细信息。

查看接入的EAS指标数据

  1. 在左侧导航栏,单击接入管理,然后在已接入组件页签,单击阿里云 PAI EAS 模型在线服务卡片。

    在弹出的面板中,您可以查看已接入的环境列表。image

  2. 单击目标环境操作列下的查看详情,然后切换到指标探索页签。在该页面,您可以查看EAS服务所有的指标详情。

    查看方式

    描述

    查看方式

    描述

    通过过滤指标查看指标详情

    云监控指标名称会增加AliyunLearn_eas前缀,与云监控上展示的EAS指标定义一致,且标签信息更加丰富。高级监控指标请参考使用ARMS自定义可观测大盘及报警image

    借助PromQL组合,查询更加丰富的指标。

    例如查询当前所有服务的QPS之和。如下图所示,切换到Code,输入sum(AliyunLearn_eas_eas_qps_total),然后单击Run query,便会展示出最近一段时间内,您在当前区域部署的所有EAS服务的QPS之和的变化趋势。关于PromQL的更多语法信息介绍,请参见时序数据查询和分析语法。您也可以单击输入框后的AI助手按钮image来学习PromQL语法信息。image

自定义可观测可视化大盘

  1. 查看Grafana大盘详情。

    ARMS可观测可视化大盘使用Grafana实现,且自带了一个默认的Grafana大盘。您可以按照以下操作步骤,查看大盘详情。

    1. 进入云服务环境详情页面。具体操作,请参见步骤二:查看监控大盘

    2. 组件管理页签的组件类型区域,选择阿里云PAI EAS在线预测服务,并单击右侧的大盘以及大盘名称,来查看内置的Grafana大盘。image

  2. 为默认的Grafana大盘增加一个全局QPS面板。image

    1. 在大盘详情页面单击右上角的Add panel按钮image,然后在新增的Add panel面板中,单击Add a new panel

    2. Edit Panel页面右侧,将图表类型切换为Stat

    3. 在页面左下角,将Data source切换为${datasource},然后在Metrics browser文本框中输入PromQL查询语句sum(AliyunLearn_eas_eas_qps_total) 后,单击Run queries

    4. 通过调整threshold,为不同的阈值配置不同的展示颜色。配置完成后,页面会预览图表效果,通过单击Apply按钮保存设置。

关于Grafana的更多介绍,请参见可观测可视化 Grafana 版

自定义监控报警

ARMS提供了完整的报警能力,参照步骤二:查看监控大盘进入云服务环境详情页面,在告警规则页签,您可以查看ARMS预置的默认告警规则模板。image

如果上述默认模板无法满足您的需求,您可以按照以下操作步骤配置自定义告警规则。

  1. 登录ARMS控制台,在左侧导航栏,选择Prometheus监控 > Prometheus告警规则,然后单击创建Prometheus告警规则

  2. 创建Prometheus告警规则页面,配置以下关键参数,更多参数配置说明,请参见创建Prometheus告警规则

    参数

    描述

    参数

    描述

    检测类型

    选择自定义PromQL

    自定义PromQL语句

    输入sum(AliyunLearn_eas_eas_qps_total) > 20

    告警内容

    用户收到的告警信息。

    告警通知

    设置告警通知对象。

  3. 单击完成

    您可以在Prometheus告警规则页面查看已创建的告警规则。当所有服务的全局QPS之和大于20时,您配置的通知对象便能收到告警。

附录:EAS高级监控指标

说明

以下指标仅在ARMS开启高级监控指标时才会显示。

指标

指标含义

指标标签(维度)

指标分类

指标类型

单位

指标周期(单位s)

instance_cpu_count

服务实例CPU数量

instance,resource_type

CPU

Gauge

count

60

instance_gpu_count

服务实例GPU数量

instance,resource_type

GPU

Gauge

count

60

instance_cpu_usage

服务实例CPU使用量

instance

CPU

Gauge

core

60

instance_user_cpu_usage

服务实例用户进程CPU使用量

instance

CPU

Gauge

core

60

instance_system_cpu_usage

服务实例系统进程CPU使用量

instance

CPU

Gauge

core

60

instance_cpu_util

服务实例CPU使用率

instance

CPU

Gauge

%

60

instance_memory_rss_usage

服务实例内存使用量

instance

Memory

Gauge

byte

60

instance_memory_cache_usage

服务实例内存缓存使用量

instance

Memory

Gauge

byte

60

instance_memory_total

服务实例内存总量

instance

Memory

Gauge

byte

60

instance_memory_util

服务实例内存使用率

instance

Memory

Gauge

%

60

instance_response

服务实例请求数

instance

Request

Counter

count

60

instance_gpu_util

服务实例GPU使用率

instance

GPU

Gauge

%

60

instance_gpu_memory_usage

服务实例显存使用量

instance

GPU

Gauge

MiB

60

instance_gpu_memory_total

服务实例显存总量

instance

GPU

Gauge

MiB

60

instance_gpu_memory_util

服务实例显存使用率

instance

GPU

Gauge

MiB

60

instance_gpu_memory_bandwidth_limit

服务实例GPU显存带宽限制

instance

GPU

Gauge

bytes/second

60

instance_gpu_temperature

服务实例GPU温度

instance

GPU

Gauge

°C

60

instance_gpu_slow_temperature

服务实例GPU降频温度

instance

GPU

Gauge

°C

60

instance_gpu_shut_temperature

服务实例GPU关机温度

instance

GPU

Gauge

°C

60

instance_gpu_nvswitch_error

服务实例NVSwitch致命错误信息

instance

GPU

Gauge

count

60s

instance_gpu_nvswitch_non_fatal_error

服务实例NVSwitch非致命错误信息

instance

GPU

Gauge

count

60

instance_gpu_ecc_total_vol_sbe

服务实例单比特易失性ECC错误总数

instance

GPU

Counter

count

60

instance_gpu_ecc_total_vol_dbe

服务实例双比特易失性ECC错误总数

instance

GPU

Counter

count

60

instance_gpu_ecc_total_agg_sbe

服务实例单比特聚合(持久性)ECC错误总数

instance

GPU

Counter

count

60

instance_gpu_ecc_total_agg_dbe

服务实例双比特聚合(持久性)ECC错误总数

instance

GPU

Counter

count

60

instance_gpu_remap_fail

服务实例行重映射失败次数

instance

GPU

Gauge

count

60

instance_gpu_remap_pending

服务实例行重映射待处理次数

instance

GPU

Gauge

count

60

instance_gpu_pcie_replay_counter

服务实例PCIe重传计数器

instance

GPU

Gauge

count

60

instance_gpu_pcie_transmit_measure_by_dcgm

服务实例通过DCGM测量的PCIe传输速率

instance

GPU

Gauge

bytes/second

60

instance_gpu_pcie_receive_measure_by_dcgm

服务实例通过DCGM测量的PCIe接收速率

instance

GPU

Gauge

bytes/second

60

instance_gpu_graphics_engine_util

服务实例图形引擎利用率

instance

GPU

Gauge

ratio (0~1)

60

instance_gpu_sm_util

服务实例SM(流式多处理器)利用率

instance

GPU

Gauge

ratio (0~1)

60

instance_gpu_dram_active

服务实例设备内存接口活跃发送或接收数据的比率

instance

GPU

Gauge

ratio (0~1)

60

instance_gpu_tensortflops_used

服务实例Tensor管道使用的Tflops

instance

GPU

Gauge

count

60

instance_gpu_memory_bandwidth_used

服务实例内存带宽使用量

instance

GPU

Gauge

bytes/second

60

instance_gpu_sm_clock

服务实例SM时钟频率

instance

GPU

Gauge

MHz

60

instance_gpu_sm_occupancy

服务实例SM上驻留的Warp数量比例

instance

GPU

Gauge

ratio (0~1)

60

instance_gpu_fp32tflops_used

服务实例FP32管道使用的Tflops

instance

GPU

Gauge

count

60

instance_gpu_fp16tflops_used

服务实例FP16管道使用的Tflops

instance

GPU

Gauge

count

60

instance_gpu_pipe_fp32_active

服务实例FP32管道活跃周期比例

instance

GPU

Gauge

ratio (0~1)

60

instance_gpu_pipe_fp16_active

服务实例FP16管道活跃周期比例

instance

GPU

Gauge

ratio (0~1)

60s

instance_gpu_pipe_tensor_active

服务实例Tensor管道活跃周期比例

instance

GPU

Gauge

ratio (0~1)

60

instance_gpu_power_usage

服务实例GPU功耗

instance

GPU

Gauge

watts

60

instance_accelerator_power_usage

服务实例加速器功耗

instance

GPU

Gauge

milliwatts

60

instance_gpu_mem_copy_util

服务实例内存复制利用率

instance

GPU

Gauge

%

60

instance_gpu_health_count

服务实例GPU健康状态计数的总和

instance

GPU

Gauge

count

60

instance_gpu_lost_card_num

服务实例VM中丢失显卡数量

instance

GPU

Gauge

count

60

instance_gpu_driver_hang

服务实例驱动挂起次数

instance

GPU

Gauge

count

60

instance_gpu_profile_status

服务实例Amperf性能分析状态

instance

GPU

Gauge

count

60

instance_gpu_uncorrectable_ecc

服务实例无法纠正的ECC错误数量

instance

GPU

Gauge

count

60

instance_gpu_xid_cnt

服务实例Xid错误数

instance

GPU

Gauge

count

60

instance_gpu_fatal_xid_error

服务实例致命Xid错误数

instance

GPU

Gauge

count

60

instance_gpu_kernel_err_cnt

服务实例来自内核日志的非Xid错误数

instance

GPU

Gauge

count

60

instance_qps

服务实例每秒请求数

instance

Request

Gauge

count

60

instance_traffic

服务实例流量

instance

Request

Gauge

bps

60

instance_avg_latency

服务实例平均请求响应时间

instance

Request

Gauge

ms

60

instance_tpxx_latency

服务实例TOPXX请求响应时间

instance

Request

Gauge

ms

60

instance_traffic_in

服务实例入流量

instance

Request

Gauge

bps

60

instance_traffic_out

服务实例出流量

instance

Request

Gauge

bps

60

instance_tcp_connections

服务实例TCP连接数

instance

Request

Gauge

count

60

service_replicas

服务实例数

service

Meta

Gauge

count

60

service_pending_replicas

待执行的服务实例数

service

Meta

Gauge

count

60

service_available_replicas

运行中的服务实例数

service

Meta

Gauge

count

60

service_replicas_with_resource_type

服务实例数(带有资源类型标签)

service

Meta

Gauge

count

60

service_cpu_count

服务占用CPU总数

service

CPU

Gauge

core

60

service_cpu_count_with_resource_type

服务CPU总数(带有资源类型标签)

service

CPU

Gauge

core

60

service_gpu_count_with_resource_type

服务GPU总数(带有资源类型标签)

service

GPU

Gauge

count

60

service_rps_status_2xx

服务2XX响应请求数

service

Request

Gauge

count

60

service_rps_status_4xx

服务4XX响应请求数

service

Request

Gauge

count

60

service_rps_status_5xx

服务5XX响应请求数

service

Request

Gauge

count

60

service_rps_status_2xx_ratio

服务2XX响应请求数占比

service

Request

Gauge

%

60

service_rps_status_4xx_ratio

服务4XX响应请求数占比

service

Request

Gauge

%

60

service_rps_status_5xx_ratio

服务5XX响应请求数占比

service

Request

Gauge

%

60

service_qps

服务每秒请求数

service

Request

Gauge

count

60

service_avg_latency

服务平均请求响应时间

service

Request

Gauge

ms

60

service_tpxx_latency

服务TOPXX请求响应时间

service

Request

Gauge

ms

60

service_tp100_latency

服务TOP100请求响应时间

service

Request

Gauge

ms

60

service_traffic_in

服务入流量

service

Network

Gauge

bps

60

service_traffic_out

服务出流量

service

Network

Gauge

60

service_cpu_usage

服务CPU使用量

service

CPU

Gauge

core

60

service_user_cpu_usage

服务用户进程CPU使用量

service

CPU

Gauge

core

60

service_system_cpu_usage

服务系统进程CPU使用量

service

CPU

Gauge

core

60

service_cpu_util

服务CPU使用率

service

CPU

Gauge

%

60

service_memory_rss_usage

服务内存使用量

service

Memory

Gauge

byte

60

service_memory_cache_usage

服务内存缓存使用量

service

Memory

Gauge

byte

60

service_memory_total

服务内存总量

service

Memory

Gauge

byte

60

service_memory_util

服务内存使用率

service

Memory

Gauge

%

60

service_gpu_util

服务GPU使用率

service

GPU

Gauge

%

60

service_gpu_memory_usage

服务显存使用量

service

GPU

Gauge

MiB

60

service_gpu_memory_total

服务显存总量

service

GPU

Gauge

MiB

60

service_gpu_memory_util

服务显存使用率

service

GPU

Gauge

MiB

60

service_gpu_memory_bandwidth_limit

服务GPU显存带宽限制

service

GPU

Gauge

bytes/second

60

service_gpu_temperature

服务GPU温度

service

GPU

Gauge

°C

60

service_gpu_slow_temperature

服务GPU降频温度

service

GPU

Gauge

°C

60

service_gpu_shut_temperature

服务GPU关机温度

service

GPU

Gauge

°C

60

service_gpu_nvswitch_error

服务NVSwitch致命错误信息

service

GPU

Gauge

count

60

service_gpu_nvswitch_non_fatal_error

服务NVSwitch非致命错误信息

service

GPU

Gauge

count

60

service_gpu_ecc_total_vol_sbe

服务单比特易失性ECC错误总数

service

GPU

Counter

count

60

service_gpu_ecc_total_vol_dbe

服务双比特易失性ECC错误总数

service

GPU

Counter

count

60

service_gpu_ecc_total_agg_sbe

服务单比特聚合(持久性)ECC错误总数

service

GPU

Counter

count

60

service_gpu_ecc_total_agg_dbe

服务双比特聚合(持久性)ECC错误总数

service

GPU

Counter

count

60

service_gpu_remap_fail

服务行重映射失败次数

service

GPU

Gauge

count

60

service_gpu_remap_pending

服务行重映射待处理次数

service

GPU

Gauge

count

60

service_gpu_pcie_replay_counter

服务PCIe重传计数器

service

GPU

Gauge

count

60

service_gpu_pcie_transmit_measure_by_dcgm

服务通过DCGM测量的PCIe传输速率

service

GPU

Gauge

bytes/second

60

service_gpu_pcie_receive_measure_by_dcgm

服务通过DCGM测量的PCIe接收速率

service

GPU

Gauge

bytes/second

60

service_gpu_graphics_engine_util

服务图形引擎利用率

service

GPU

Gauge

ratio (0~1)

60

service_gpu_sm_util

服务SM(流式多处理器)利用率

service

GPU

Gauge

ratio (0~1)

60

service_gpu_dram_active

服务设备内存接口活跃发送或接收数据的比率

service

GPU

Gauge

ratio (0~1)

60

service_gpu_tensortflops_used

服务Tensor管道使用的Tflops

service

GPU

Gauge

count

60

service_gpu_memory_bandwidth_used

服务内存带宽使用量

service

GPU

Gauge

bytes/second

60

service_gpu_sm_clock

服务SM时钟频率

service

GPU

Gauge

MHz

60

service_gpu_sm_occupancy

服务SM上驻留的Warp线程数量比例

service

GPU

Gauge

ratio (0~1)

60

service_gpu_fp32tflops_used

服务FP32管道使用的Tflops

service

GPU

Gauge

count

60

service_gpu_fp16tflops_used

服务FP16管道使用的Tflops

service

GPU

Gauge

count

60

service_gpu_pipe_fp32_active

服务FP32管道活跃周期比例

service

GPU

Gauge

ratio (0~1)

60

service_gpu_pipe_fp16_active

服务FP16管道活跃周期比例

service

GPU

Gauge

ratio (0~1)

60

service_gpu_pipe_tensor_active

服务Tensor管道活跃周期比例

service

GPU

Gauge

ratio (0~1)

60

service_gpu_power_usage

服务GPU功耗

service

GPU

Gauge

watts

60

service_accelerator_power_usage

服务加速器功耗

service

GPU

Gauge

milliwatts

60

service_gpu_mem_copy_util

服务内存复制利用率

service

GPU

Gauge

%

60

service_gpu_health_count

服务GPU健康状态计数的总和

service

GPU

Gauge

count

60

service_gpu_lost_card_num

服务VM中丢失显卡数量

service

GPU

Gauge

count

60

service_gpu_driver_hang

服务驱动挂起次数

service

GPU

Gauge

count

60

service_gpu_profile_status

服务Amperf性能分析状态

service

GPU

Gauge

count

60

service_gpu_uncorrectable_ecc

服务无法纠正的ECC错误数量

service

GPU

Gauge

count

60

service_gpu_xid_cnt

服务Xid错误数

service

GPU

Gauge

count

60

service_gpu_fatal_xid_error

服务致命Xid错误数

service

GPU

Gauge

count

60

service_gpu_kernel_err_cnt

服务来自内核日志的非Xid错误数

service

GPU

Gauge

count

60

service_tcp_connections

服务TCP连接数

service

Network

Gauge

count

60

service_gateway_requests

llm-gateway:gateway当前接受到的请求数

service

Request

Gauge

count

60

service_gateway_pending_requests

llm-gateway:当前缓存在gateway中的请求数

service

Request

Gauge

count

60

service_llm_ttft_max

llm-gateway: llm流式请求的首包延时的最大值

service

Request

Gauge

time

60

service_llm_ttft_min

llm-gateway: llm流式请求的首包延时的最小值

service

Request

Gauge

time

60

service_llm_ttft_mean

llm-gateway: llm流式请求的首包延时的平均值

service

Request

Gauge

time

60

service_llm_ttft_percent

llm-gateway: llm流式请求的首包延时的分位值

service

Request

Gauge

time

60

service_llm_tpot_max

llm-gateway: llm流式请求的每包延时的最大值

service

Request

Gauge

time

60

service_llm_tpot_min

llm-gateway: llm流式请求的每包延时的最小值

service

Request

Gauge

time

60

service_llm_tpot_mean

llm-gateway: llm流式请求的每包延时的平均值

service

Request

Gauge

time

60

service_llm_tpot_percent

llm-gateway: llm流式请求的每包延时的分位值

service

Request

Gauge

time

60

service_endpoint_llm_waiting_requests

llm-gateway: llm推理引擎内部正在排队等待的请求数

service

Request

Gauge

count

60

service_endpoint_llm_running_requests

llm-gateway: llm推理引擎内部正在运行处理的请求数

service

Request

Gauge

count

60

service_endpoint_llm_gpu_cache_usage

llm-gateway: llm推理引擎gpu kv-cache的使用率

service

Request

Gauge

count

60

service_endpoint_llm_tps_in

llm-gateway: llm引擎每秒的输入的token

service

Request

Gauge

count

60

service_endpoint_llm_tps_out

llm-gateway: llm引擎每秒输出的token

service

Request

Gauge

count

60

resource_instance_cpu_util

资源组实例CPU使用率

instance_id

Resource Instance

Gauge

%

60

resource_instance_memory_total

资源组实例内存总量

instance_id

Resource Instance

Gauge

byte

60

resource_instance_memory_used

资源组实例内存使用量

instance_id

Resource Instance

Gauge

byte

60

resource_instance_memory_util

资源组实例内存使用率

instance_id

Resource Instance

Gauge

%

60

resource_instance_memory_cache

资源组实例内存缓存使用量

instance_id

Resource Instance

Gauge

byte

60

resource_instance_memory_free

资源组实例内存空余量

instance_id

Resource Instance

Gauge

byte

60

resource_instance_traffic_in

资源组实例入流量

instance_id

Resource Instance

Gauge

bytes/second

60

resource_instance_traffic_out

资源组实例出流量

instance_id

Resource Instance

Gauge

bytes/second

60

resource_instance_disk_used

资源组实例硬盘使用量

instance_id

Resource Instance

Gauge

byte

60

resource_instance_disk_total

资源组实例硬盘总量

instance_id

Resource Instance

Gauge

byte

60

resource_instance_disk_util

资源组实例硬盘使用率

instance_id

Resource Instance

Gauge

byte

60

resource_instance_tcp_established

资源组实例TCP稳定链接数

instance_id

Resource Instance

Gauge

count

60

resource_instance_tcp_time_wait

资源组实例TCP等待链接数

instance_id

Resource Instance

Gauge

count

60

resource_instance_gpu_util

资源组实例GPU使用率

instance_id

Resource Instance

Gauge

%

60

resource_instance_gpu_memory_usage

资源组实例显存使用量

instance_id

Resource Instance

Gauge

MiB

60

resource_instance_gpu_memory_total

资源组实例显存总量

instance_id

Resource Instance

Gauge

MiB

60

resource_instance_gpu_memory_util

资源组实例显存使用率

instance_id

Resource Instance

Gauge

%

60

resource_cpu_util

资源组CPU使用率

resource

Resource

Gauge

%

60

resource_memory_total

资源组内存总量

resource

Resource

Gauge

byte

60

resource_memory_used

资源组内存使用量

resource

Resource

Gauge

byte

60

resource_memory_util

资源组内存使用率

resource

Resource

Gauge

%

60

resource_memory_cache

资源组内存缓存使用量

resource

Resource

Gauge

byte

60

resource_memory_free

资源组内存空余量

resource

Resource

Gauge

byte

60

resource_traffic_in

资源组入流量

resource

Resource

Gauge

bytes/second

60

resource_traffic_out

资源组出流量

resource

Resource

Gauge

bytes/second

60

resource_disk_used

资源组硬盘使用量

resource

Resource

Gauge

byte

60

resource_disk_total

资源组硬盘总量

resource

Resource

Gauge

byte

60

resource_disk_util

资源组硬盘使用率

resource

Resource

Gauge

byte

60

resource_tcp_established

资源组TCP稳定链接数

resource

Resource

Gauge

count

60

resource_tcp_time_wait

资源组TCP等待链接数

resource

Resource

Gauge

count

60

resource_gpu_util

资源组GPU使用率

resource

Resource

Gauge

%

60

resource_gpu_memory_usage

资源组显存使用量

resource

Resource

Gauge

MiB

60

resource_gpu_memory_total

资源组显存总量

resource

Resource

Gauge

MiB

60

resource_gpu_memory_util

资源组显存使用率

resource

Resource

Gauge

%

60

  • 本页导读 (1)
  • 计费说明
  • 接入EAS监控指标数据
  • 查看接入的EAS指标数据
  • 自定义可观测可视化大盘
  • 自定义监控报警
  • 附录:EAS高级监控指标
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等