应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云云原生可观测产品平台。基于ARMS提供的能力,您可以自定义一套PAI-EAS服务的可观测大盘,以及配置更加灵活的报警规则,帮助您全面详细地监控EAS指标数据。本文将向您介绍如何使用ARMS查看监控指标数据、配置可观测可视化大盘以及自定义监控报警等。
计费说明
使用ARMS服务会产生一定的费用,详细的计费说明,请参见ARMS计费说明。
接入EAS监控指标数据
登录ARMS控制台,在左侧导航栏,单击接入中心。
在接入中心页面,单击左侧人工智能页签,然后单击阿里云 PAI EAS 模型在线服务。
在弹出面板的开始接入页签,选择数据存储地域并配置接入名称,然后单击确定。
大约需要等待1~2分钟,即可完成服务的接入。
重要当您打开高级监控指标开关时,将包含所有EAS服务和资源组相关指标。如果您需要自定义可观测大盘,建议您开启高级监控指标。如果您使用了自定义监控指标,这些指标也会包含在高级监控指标中,并且指标名会增加
custom_
前缀。安装完成后,您可以单击接入管理,查看已接入环境的详细信息。
查看接入的EAS指标数据
在左侧导航栏,单击接入管理,然后在已接入组件页签,单击阿里云 PAI EAS 模型在线服务卡片。
在弹出的面板中,您可以查看已接入的环境列表。
单击目标环境操作列下的查看详情,然后切换到指标探索页签。在该页面,您可以查看EAS服务所有的指标详情。
查看方式
描述
通过过滤指标查看指标详情
云监控指标名称会增加AliyunLearn_eas前缀,与云监控上展示的EAS指标定义一致,且标签信息更加丰富。高级监控指标请参考EAS高级监控指标。
借助PromQL组合,查询更加丰富的指标。
例如查询当前所有服务的QPS之和。如下图所示,切换到Code,输入
sum(AliyunLearn_eas_eas_qps_total)
,然后单击Run query,便会展示出最近一段时间内,您在当前区域部署的所有EAS服务的QPS之和的变化趋势。关于PromQL的更多语法信息介绍,请参见时序数据查询和分析语法。您也可以单击输入框后的AI助手按钮来学习PromQL语法信息。
自定义可观测可视化大盘
查看Grafana大盘详情。
ARMS可观测可视化大盘使用Grafana实现,且自带了一个默认的Grafana大盘。您可以按照以下操作步骤,查看大盘详情。
进入云服务环境详情页面。具体操作,请参见步骤二:查看监控大盘。
在组件管理页签的组件类型区域,选择阿里云PAI EAS在线预测服务,并单击右侧的大盘以及大盘名称,来查看内置的Grafana大盘。
为默认的Grafana大盘增加一个全局QPS面板。
在大盘详情页面单击右上角的Add panel按钮
,然后在新增的Add panel面板中,单击Add a new panel。
在Edit Panel页面右侧,将图表类型切换为Stat。
在页面左下角,将Data source切换为${datasource},然后在Metrics browser文本框中输入PromQL查询语句
sum(AliyunLearn_eas_eas_qps_total)
后,单击Run queries。通过调整threshold,为不同的阈值配置不同的展示颜色。配置完成后,页面会预览图表效果,通过单击Apply按钮保存设置。
关于Grafana的更多介绍,请参见可观测可视化 Grafana 版。
自定义监控报警
ARMS提供了完整的报警能力,参照步骤二:查看监控大盘进入云服务环境详情页面,在告警规则页签,您可以查看ARMS预置的默认告警规则模板。
如果上述默认模板无法满足您的需求,您可以按照以下操作步骤配置自定义告警规则。
登录ARMS控制台,在左侧导航栏,选择Prometheus监控 > Prometheus告警规则,然后单击创建Prometheus告警规则。
在创建Prometheus告警规则页面,配置以下关键参数,更多参数配置说明,请参见创建Prometheus告警规则。
参数
描述
检测类型
选择自定义PromQL。
自定义PromQL语句
输入
sum(AliyunLearn_eas_eas_qps_total) > 20
。告警内容
用户收到的告警信息。
告警通知
设置告警通知对象。
单击完成。
您可以在Prometheus告警规则页面查看已创建的告警规则。当所有服务的全局QPS之和大于20时,您配置的通知对象便能收到告警。
附录:EAS高级监控指标
以下指标仅在ARMS开启高级监控指标时才会显示。
指标 | 指标含义 | 指标标签(维度) | 指标分类 | 指标类型 | 单位 | 指标周期(单位s) |
instance_cpu_count | 服务实例CPU数量 | instance,resource_type | CPU | Gauge | count | 60 |
instance_gpu_count | 服务实例GPU数量 | instance,resource_type | GPU | Gauge | count | 60 |
instance_cpu_usage | 服务实例CPU使用量 | instance | CPU | Gauge | core | 60 |
instance_user_cpu_usage | 服务实例用户进程CPU使用量 | instance | CPU | Gauge | core | 60 |
instance_system_cpu_usage | 服务实例系统进程CPU使用量 | instance | CPU | Gauge | core | 60 |
instance_cpu_util | 服务实例CPU使用率 | instance | CPU | Gauge | % | 60 |
instance_memory_rss_usage | 服务实例内存使用量 | instance | Memory | Gauge | byte | 60 |
instance_memory_cache_usage | 服务实例内存缓存使用量 | instance | Memory | Gauge | byte | 60 |
instance_memory_total | 服务实例内存总量 | instance | Memory | Gauge | byte | 60 |
instance_memory_util | 服务实例内存使用率 | instance | Memory | Gauge | % | 60 |
instance_response | 服务实例请求数 | instance | Request | Counter | count | 60 |
instance_gpu_util | 服务实例GPU使用率 | instance | GPU | Gauge | % | 60 |
instance_gpu_memory_usage | 服务实例显存使用量 | instance | GPU | Gauge | MiB | 60 |
instance_gpu_memory_total | 服务实例显存总量 | instance | GPU | Gauge | MiB | 60 |
instance_gpu_memory_util | 服务实例显存使用率 | instance | GPU | Gauge | MiB | 60 |
instance_gpu_memory_bandwidth_limit | 服务实例GPU显存带宽限制 | instance | GPU | Gauge | bytes/second | 60 |
instance_gpu_temperature | 服务实例GPU温度 | instance | GPU | Gauge | °C | 60 |
instance_gpu_slow_temperature | 服务实例GPU降频温度 | instance | GPU | Gauge | °C | 60 |
instance_gpu_shut_temperature | 服务实例GPU关机温度 | instance | GPU | Gauge | °C | 60 |
instance_gpu_nvswitch_error | 服务实例NVSwitch致命错误信息 | instance | GPU | Gauge | count | 60s |
instance_gpu_nvswitch_non_fatal_error | 服务实例NVSwitch非致命错误信息 | instance | GPU | Gauge | count | 60 |
instance_gpu_ecc_total_vol_sbe | 服务实例单比特易失性ECC错误总数 | instance | GPU | Counter | count | 60 |
instance_gpu_ecc_total_vol_dbe | 服务实例双比特易失性ECC错误总数 | instance | GPU | Counter | count | 60 |
instance_gpu_ecc_total_agg_sbe | 服务实例单比特聚合(持久性)ECC错误总数 | instance | GPU | Counter | count | 60 |
instance_gpu_ecc_total_agg_dbe | 服务实例双比特聚合(持久性)ECC错误总数 | instance | GPU | Counter | count | 60 |
instance_gpu_remap_fail | 服务实例行重映射失败次数 | instance | GPU | Gauge | count | 60 |
instance_gpu_remap_pending | 服务实例行重映射待处理次数 | instance | GPU | Gauge | count | 60 |
instance_gpu_pcie_replay_counter | 服务实例PCIe重传计数器 | instance | GPU | Gauge | count | 60 |
instance_gpu_pcie_transmit_measure_by_dcgm | 服务实例通过DCGM测量的PCIe传输速率 | instance | GPU | Gauge | bytes/second | 60 |
instance_gpu_pcie_receive_measure_by_dcgm | 服务实例通过DCGM测量的PCIe接收速率 | instance | GPU | Gauge | bytes/second | 60 |
instance_gpu_graphics_engine_util | 服务实例图形引擎利用率 | instance | GPU | Gauge | ratio (0~1) | 60 |
instance_gpu_sm_util | 服务实例SM(流式多处理器)利用率 | instance | GPU | Gauge | ratio (0~1) | 60 |
instance_gpu_dram_active | 服务实例设备内存接口活跃发送或接收数据的比率 | instance | GPU | Gauge | ratio (0~1) | 60 |
instance_gpu_tensortflops_used | 服务实例Tensor管道使用的Tflops | instance | GPU | Gauge | count | 60 |
instance_gpu_memory_bandwidth_used | 服务实例内存带宽使用量 | instance | GPU | Gauge | bytes/second | 60 |
instance_gpu_sm_clock | 服务实例SM时钟频率 | instance | GPU | Gauge | MHz | 60 |
instance_gpu_sm_occupancy | 服务实例SM上驻留的Warp数量比例 | instance | GPU | Gauge | ratio (0~1) | 60 |
instance_gpu_fp32tflops_used | 服务实例FP32管道使用的Tflops | instance | GPU | Gauge | count | 60 |
instance_gpu_fp16tflops_used | 服务实例FP16管道使用的Tflops | instance | GPU | Gauge | count | 60 |
instance_gpu_pipe_fp32_active | 服务实例FP32管道活跃周期比例 | instance | GPU | Gauge | ratio (0~1) | 60 |
instance_gpu_pipe_fp16_active | 服务实例FP16管道活跃周期比例 | instance | GPU | Gauge | ratio (0~1) | 60s |
instance_gpu_pipe_tensor_active | 服务实例Tensor管道活跃周期比例 | instance | GPU | Gauge | ratio (0~1) | 60 |
instance_gpu_power_usage | 服务实例GPU功耗 | instance | GPU | Gauge | watts | 60 |
instance_accelerator_power_usage | 服务实例加速器功耗 | instance | GPU | Gauge | milliwatts | 60 |
instance_gpu_mem_copy_util | 服务实例内存复制利用率 | instance | GPU | Gauge | % | 60 |
instance_gpu_health_count | 服务实例GPU健康状态计数的总和 | instance | GPU | Gauge | count | 60 |
instance_gpu_lost_card_num | 服务实例VM中丢失显卡数量 | instance | GPU | Gauge | count | 60 |
instance_gpu_driver_hang | 服务实例驱动挂起次数 | instance | GPU | Gauge | count | 60 |
instance_gpu_profile_status | 服务实例Amperf性能分析状态 | instance | GPU | Gauge | count | 60 |
instance_gpu_uncorrectable_ecc | 服务实例无法纠正的ECC错误数量 | instance | GPU | Gauge | count | 60 |
instance_gpu_xid_cnt | 服务实例Xid错误数 | instance | GPU | Gauge | count | 60 |
instance_gpu_fatal_xid_error | 服务实例致命Xid错误数 | instance | GPU | Gauge | count | 60 |
instance_gpu_kernel_err_cnt | 服务实例来自内核日志的非Xid错误数 | instance | GPU | Gauge | count | 60 |
instance_qps | 服务实例每秒请求数 | instance | Request | Gauge | count | 60 |
instance_traffic | 服务实例流量 | instance | Request | Gauge | bps | 60 |
instance_avg_latency | 服务实例平均请求响应时间 | instance | Request | Gauge | ms | 60 |
instance_tpxx_latency | 服务实例TOPXX请求响应时间 | instance | Request | Gauge | ms | 60 |
instance_traffic_in | 服务实例入流量 | instance | Request | Gauge | bps | 60 |
instance_traffic_out | 服务实例出流量 | instance | Request | Gauge | bps | 60 |
instance_tcp_connections | 服务实例TCP连接数 | instance | Request | Gauge | count | 60 |
service_replicas | 服务实例数 | service | Meta | Gauge | count | 60 |
service_pending_replicas | 待执行的服务实例数 | service | Meta | Gauge | count | 60 |
service_available_replicas | 运行中的服务实例数 | service | Meta | Gauge | count | 60 |
service_replicas_with_resource_type | 服务实例数(带有资源类型标签) | service | Meta | Gauge | count | 60 |
service_cpu_count | 服务占用CPU总数 | service | CPU | Gauge | core | 60 |
service_cpu_count_with_resource_type | 服务CPU总数(带有资源类型标签) | service | CPU | Gauge | core | 60 |
service_gpu_count_with_resource_type | 服务GPU总数(带有资源类型标签) | service | GPU | Gauge | count | 60 |
service_rps_status_2xx | 服务2XX响应请求数 | service | Request | Gauge | count | 60 |
service_rps_status_4xx | 服务4XX响应请求数 | service | Request | Gauge | count | 60 |
service_rps_status_5xx | 服务5XX响应请求数 | service | Request | Gauge | count | 60 |
service_rps_status_2xx_ratio | 服务2XX响应请求数占比 | service | Request | Gauge | % | 60 |
service_rps_status_4xx_ratio | 服务4XX响应请求数占比 | service | Request | Gauge | % | 60 |
service_rps_status_5xx_ratio | 服务5XX响应请求数占比 | service | Request | Gauge | % | 60 |
service_qps | 服务每秒请求数 | service | Request | Gauge | count | 60 |
service_avg_latency | 服务平均请求响应时间 | service | Request | Gauge | ms | 60 |
service_tpxx_latency | 服务TOPXX请求响应时间 | service | Request | Gauge | ms | 60 |
service_tp100_latency | 服务TOP100请求响应时间 | service | Request | Gauge | ms | 60 |
service_traffic_in | 服务入流量 | service | Network | Gauge | bps | 60 |
service_traffic_out | 服务出流量 | service | Network | Gauge | 60 | |
service_cpu_usage | 服务CPU使用量 | service | CPU | Gauge | core | 60 |
service_user_cpu_usage | 服务用户进程CPU使用量 | service | CPU | Gauge | core | 60 |
service_system_cpu_usage | 服务系统进程CPU使用量 | service | CPU | Gauge | core | 60 |
service_cpu_util | 服务CPU使用率 | service | CPU | Gauge | % | 60 |
service_memory_rss_usage | 服务内存使用量 | service | Memory | Gauge | byte | 60 |
service_memory_cache_usage | 服务内存缓存使用量 | service | Memory | Gauge | byte | 60 |
service_memory_total | 服务内存总量 | service | Memory | Gauge | byte | 60 |
service_memory_util | 服务内存使用率 | service | Memory | Gauge | % | 60 |
service_gpu_util | 服务GPU使用率 | service | GPU | Gauge | % | 60 |
service_gpu_memory_usage | 服务显存使用量 | service | GPU | Gauge | MiB | 60 |
service_gpu_memory_total | 服务显存总量 | service | GPU | Gauge | MiB | 60 |
service_gpu_memory_util | 服务显存使用率 | service | GPU | Gauge | MiB | 60 |
service_gpu_memory_bandwidth_limit | 服务GPU显存带宽限制 | service | GPU | Gauge | bytes/second | 60 |
service_gpu_temperature | 服务GPU温度 | service | GPU | Gauge | °C | 60 |
service_gpu_slow_temperature | 服务GPU降频温度 | service | GPU | Gauge | °C | 60 |
service_gpu_shut_temperature | 服务GPU关机温度 | service | GPU | Gauge | °C | 60 |
service_gpu_nvswitch_error | 服务NVSwitch致命错误信息 | service | GPU | Gauge | count | 60 |
service_gpu_nvswitch_non_fatal_error | 服务NVSwitch非致命错误信息 | service | GPU | Gauge | count | 60 |
service_gpu_ecc_total_vol_sbe | 服务单比特易失性ECC错误总数 | service | GPU | Counter | count | 60 |
service_gpu_ecc_total_vol_dbe | 服务双比特易失性ECC错误总数 | service | GPU | Counter | count | 60 |
service_gpu_ecc_total_agg_sbe | 服务单比特聚合(持久性)ECC错误总数 | service | GPU | Counter | count | 60 |
service_gpu_ecc_total_agg_dbe | 服务双比特聚合(持久性)ECC错误总数 | service | GPU | Counter | count | 60 |
service_gpu_remap_fail | 服务行重映射失败次数 | service | GPU | Gauge | count | 60 |
service_gpu_remap_pending | 服务行重映射待处理次数 | service | GPU | Gauge | count | 60 |
service_gpu_pcie_replay_counter | 服务PCIe重传计数器 | service | GPU | Gauge | count | 60 |
service_gpu_pcie_transmit_measure_by_dcgm | 服务通过DCGM测量的PCIe传输速率 | service | GPU | Gauge | bytes/second | 60 |
service_gpu_pcie_receive_measure_by_dcgm | 服务通过DCGM测量的PCIe接收速率 | service | GPU | Gauge | bytes/second | 60 |
service_gpu_graphics_engine_util | 服务图形引擎利用率 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_sm_util | 服务SM(流式多处理器)利用率 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_dram_active | 服务设备内存接口活跃发送或接收数据的比率 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_tensortflops_used | 服务Tensor管道使用的Tflops | service | GPU | Gauge | count | 60 |
service_gpu_memory_bandwidth_used | 服务内存带宽使用量 | service | GPU | Gauge | bytes/second | 60 |
service_gpu_sm_clock | 服务SM时钟频率 | service | GPU | Gauge | MHz | 60 |
service_gpu_sm_occupancy | 服务SM上驻留的Warp线程数量比例 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_fp32tflops_used | 服务FP32管道使用的Tflops | service | GPU | Gauge | count | 60 |
service_gpu_fp16tflops_used | 服务FP16管道使用的Tflops | service | GPU | Gauge | count | 60 |
service_gpu_pipe_fp32_active | 服务FP32管道活跃周期比例 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_pipe_fp16_active | 服务FP16管道活跃周期比例 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_pipe_tensor_active | 服务Tensor管道活跃周期比例 | service | GPU | Gauge | ratio (0~1) | 60 |
service_gpu_power_usage | 服务GPU功耗 | service | GPU | Gauge | watts | 60 |
service_accelerator_power_usage | 服务加速器功耗 | service | GPU | Gauge | milliwatts | 60 |
service_gpu_mem_copy_util | 服务内存复制利用率 | service | GPU | Gauge | % | 60 |
service_gpu_health_count | 服务GPU健康状态计数的总和 | service | GPU | Gauge | count | 60 |
service_gpu_lost_card_num | 服务VM中丢失显卡数量 | service | GPU | Gauge | count | 60 |
service_gpu_driver_hang | 服务驱动挂起次数 | service | GPU | Gauge | count | 60 |
service_gpu_profile_status | 服务Amperf性能分析状态 | service | GPU | Gauge | count | 60 |
service_gpu_uncorrectable_ecc | 服务无法纠正的ECC错误数量 | service | GPU | Gauge | count | 60 |
service_gpu_xid_cnt | 服务Xid错误数 | service | GPU | Gauge | count | 60 |
service_gpu_fatal_xid_error | 服务致命Xid错误数 | service | GPU | Gauge | count | 60 |
service_gpu_kernel_err_cnt | 服务来自内核日志的非Xid错误数 | service | GPU | Gauge | count | 60 |
service_tcp_connections | 服务TCP连接数 | service | Network | Gauge | count | 60 |
service_gateway_requests | llm-gateway:gateway当前接受到的请求数 | service | Request | Gauge | count | 60 |
service_gateway_pending_requests | llm-gateway:当前缓存在gateway中的请求数 | service | Request | Gauge | count | 60 |
service_llm_ttft_max | llm-gateway: llm流式请求的首包延时的最大值 | service | Request | Gauge | time | 60 |
service_llm_ttft_min | llm-gateway: llm流式请求的首包延时的最小值 | service | Request | Gauge | time | 60 |
service_llm_ttft_mean | llm-gateway: llm流式请求的首包延时的平均值 | service | Request | Gauge | time | 60 |
service_llm_ttft_percent | llm-gateway: llm流式请求的首包延时的分位值 | service | Request | Gauge | time | 60 |
service_llm_tpot_max | llm-gateway: llm流式请求的每包延时的最大值 | service | Request | Gauge | time | 60 |
service_llm_tpot_min | llm-gateway: llm流式请求的每包延时的最小值 | service | Request | Gauge | time | 60 |
service_llm_tpot_mean | llm-gateway: llm流式请求的每包延时的平均值 | service | Request | Gauge | time | 60 |
service_llm_tpot_percent | llm-gateway: llm流式请求的每包延时的分位值 | service | Request | Gauge | time | 60 |
service_endpoint_llm_waiting_requests | llm-gateway: llm推理引擎内部正在排队等待的请求数 | service | Request | Gauge | count | 60 |
service_endpoint_llm_running_requests | llm-gateway: llm推理引擎内部正在运行处理的请求数 | service | Request | Gauge | count | 60 |
service_endpoint_llm_gpu_cache_usage | llm-gateway: llm推理引擎gpu kv-cache的使用率 | service | Request | Gauge | count | 60 |
service_endpoint_llm_tps_in | llm-gateway: llm引擎每秒的输入的token数 | service | Request | Gauge | count | 60 |
service_endpoint_llm_tps_out | llm-gateway: llm引擎每秒输出的token数 | service | Request | Gauge | count | 60 |
resource_instance_cpu_util | 资源组实例CPU使用率 | instance_id | Resource Instance | Gauge | % | 60 |
resource_instance_memory_total | 资源组实例内存总量 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_memory_used | 资源组实例内存使用量 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_memory_util | 资源组实例内存使用率 | instance_id | Resource Instance | Gauge | % | 60 |
resource_instance_memory_cache | 资源组实例内存缓存使用量 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_memory_free | 资源组实例内存空余量 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_traffic_in | 资源组实例入流量 | instance_id | Resource Instance | Gauge | bytes/second | 60 |
resource_instance_traffic_out | 资源组实例出流量 | instance_id | Resource Instance | Gauge | bytes/second | 60 |
resource_instance_disk_used | 资源组实例硬盘使用量 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_disk_total | 资源组实例硬盘总量 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_disk_util | 资源组实例硬盘使用率 | instance_id | Resource Instance | Gauge | byte | 60 |
resource_instance_tcp_established | 资源组实例TCP稳定链接数 | instance_id | Resource Instance | Gauge | count | 60 |
resource_instance_tcp_time_wait | 资源组实例TCP等待链接数 | instance_id | Resource Instance | Gauge | count | 60 |
resource_instance_gpu_util | 资源组实例GPU使用率 | instance_id | Resource Instance | Gauge | % | 60 |
resource_instance_gpu_memory_usage | 资源组实例显存使用量 | instance_id | Resource Instance | Gauge | MiB | 60 |
resource_instance_gpu_memory_total | 资源组实例显存总量 | instance_id | Resource Instance | Gauge | MiB | 60 |
resource_instance_gpu_memory_util | 资源组实例显存使用率 | instance_id | Resource Instance | Gauge | % | 60 |
resource_cpu_util | 资源组CPU使用率 | resource | Resource | Gauge | % | 60 |
resource_memory_total | 资源组内存总量 | resource | Resource | Gauge | byte | 60 |
resource_memory_used | 资源组内存使用量 | resource | Resource | Gauge | byte | 60 |
resource_memory_util | 资源组内存使用率 | resource | Resource | Gauge | % | 60 |
resource_memory_cache | 资源组内存缓存使用量 | resource | Resource | Gauge | byte | 60 |
resource_memory_free | 资源组内存空余量 | resource | Resource | Gauge | byte | 60 |
resource_traffic_in | 资源组入流量 | resource | Resource | Gauge | bytes/second | 60 |
resource_traffic_out | 资源组出流量 | resource | Resource | Gauge | bytes/second | 60 |
resource_disk_used | 资源组硬盘使用量 | resource | Resource | Gauge | byte | 60 |
resource_disk_total | 资源组硬盘总量 | resource | Resource | Gauge | byte | 60 |
resource_disk_util | 资源组硬盘使用率 | resource | Resource | Gauge | byte | 60 |
resource_tcp_established | 资源组TCP稳定链接数 | resource | Resource | Gauge | count | 60 |
resource_tcp_time_wait | 资源组TCP等待链接数 | resource | Resource | Gauge | count | 60 |
resource_gpu_util | 资源组GPU使用率 | resource | Resource | Gauge | % | 60 |
resource_gpu_memory_usage | 资源组显存使用量 | resource | Resource | Gauge | MiB | 60 |
resource_gpu_memory_total | 资源组显存总量 | resource | Resource | Gauge | MiB | 60 |
resource_gpu_memory_util | 资源组显存使用率 | resource | Resource | Gauge | % | 60 |