文档

Fluid监控大盘参数说明

更新时间:

文档介绍Fluid监控大盘变量和Panel的详细说明。大盘变量包括时间间隔(interval)、指标分位数(quantile)和Runtime类型(runtime);大盘Panel可以帮助您了解Fluid环境中组件的健康状况和性能表现。通过监控大盘,您可以及时发现并解决可能出现的问题,确保系统的稳定运行。

前提条件

已为Fluid开启Prometheus监控和Fluid监控大盘。具体操作,请参见查看Fluid大盘数据

监控大盘变量说明

监控大盘变量的取值会影响监控大盘Panel的监控数据,您可以按照实际需要选择变量值。例如,将Runtime的变量类型从AlluxioRuntime调整为JindoRuntime后,整个监控面板与Runtime相关的Panel都会从AlluxioRuntime切换为JindoRuntime。

变量名

可选值

说明

interval

1m、5m、10m、30m、1h、6h

一个监控周期的时间长度。

quantile

0.5、0.75、0.90、0.95、0.99

部分Panel可视化指标使用的是指标分位数。例如,0.90表示显示各指标的P90分位数。

runtime

  • JindoRuntime

  • AlluxioRuntime

  • JuiceFSRuntime

Fluid中使用的Runtime类型。调整该变量将切换整个监控面板与Runtime相关的Panel。

  • JindoRuntime:来源于阿里云EMR团队JindoFS,是基于C++实现的支撑Dataset数据管理和缓存的执行引擎,支持OSS对象存储。

  • AlluxioRuntime:来源于Alluxio社区,是支撑Dataset数据管理和缓存的执行引擎,支持PVC,Ceph,CPFS加速,有效支持混合云场景。

  • JuiceFSRuntime:是基于JuiceFS的分布式缓存加速引擎,支持场景化的数据缓存和加速能力。关于JuiceFS的更多信息,请参见JuiceFS简介

监控大盘Panel说明

Panel组

Panel名称

说明

组件运行状态

Dataset控制器就绪副本数

表示集群当前处于Running状态的Dataset Controller Pod的数量。

历史Dataset控制器重启次数

表示集群当前Dataset Controller Pod的历史总重启次数。

Runtime控制器就绪副本数

表示集群当前处于Running状态的Runtime Controller Pod数量。

历史Runtime控制器重启次数

表示集群当前Runtime Controller Pod的历史总重启次数。

Fluid Webhook就绪副本数

表示集群当前处于Running状态的Fluid Webhook Pod数量。

历史Fluid Webhook控制器重启次数

表示集群当前Fluid Webhook Pod的历史总重启次数。

Fluid CSI插件就绪副本数

表示集群当前处于Running状态的Fluid CSI Plugin Pod数量。

历史Fluid CSI插件重启次数

表示集群当前Fluid CSI Plugin Pod的历史总重启次数。

Fluid组件重启情况

表示集群在2分钟监控周期内,各组件发生重启的次数,仅显示发生重启次数最多的5个组件。

Fluid控制器详细指标

Runtime控制器处理耗时

表示在一个监控周期内,Runtime控制器处理对应Runtime资源的耗时,以分位数显示。

Runtime控制器处理失败数量

表示在一个监控周期内,Runtime控制器处理对应Runtime资源时的失败类型和次数,失败类型包括:

  • Runtime部署失败。

  • Runtime健康检查失败。

Runtime控制器线程数

表示当前Runtime控制器的活跃线程数和最大可用线程数。

DataLoad控制器线程数

表示当前DataLoad控制器的活跃线程数和最大可用线程数。

控制器队列长度

表示集群当前Fluid各控制器处理队列长度。

Kubernetes API总请求量

表示在一个监控周期内,Fluid控制面各组件Pod向Kubernetes API Server发送的总请求量。

Runtime控制器Kubernetes API请求量

表示在一个监控周期内,Runtime控制器向Kubernetes API Server发送的请求量,根据请求类型返回的状态码进行区分显示。

控制器未完成处理过程总耗时

表示集群各Fluid控制器正在处理但还未完成的处理过程的累计耗时。

Fluid Webhook详细指标

Fluid Webhook Pod CPU使用量

表示在一个监控周期内,各个Fluid Webhook Pod的CPU利用率。

Fluid Webhook Pod 内存使用量

表示在一个监控周期内,各个Fluid Webhook Pod的内存使用量。

Fluid Webhook过去时间间隔总计处理请求量

表示在一个监控周期内,Fluid Webhook整体总计处理的请求量。

各Fluid Webhook过去时间间隔处理请求量

表示在一个监控周期内,不同的Fluid Webhook Pod分别处理的请求量。

Fluid Webhook请求处理时延

表示在一个监控周期内,Fluid Webhook整体的请求处理时延,以分位数显示。

各Fluid Webhook Pod请求处理时延

表示在一个监控周期内,不同的Fluid Webhook Pod的请求处理时延,以分位数显示。

资源使用

CPU使用量

表示在一个监控周期内,Fluid控制面各组件Pod CPU使用率。

内存使用量

表示在一个监控周期内,Fluid控制面各组件Pod内存使用量。

各Pod网络发送速率

表示在一个监控周期内,Fluid控制面各组件Pod网络数据包的发送速率。

各Pod网络接收速率

表示在一个监控周期内,Fluid控制面各组件Pod网络数据包接收速率。