文档介绍Fluid监控大盘变量和Panel的详细说明。大盘变量包括时间间隔(interval)、指标分位数(quantile)和Runtime类型(runtime);大盘Panel可以帮助您了解Fluid环境中组件的健康状况和性能表现。通过监控大盘,您可以及时发现并解决可能出现的问题,确保系统的稳定运行。
前提条件
已为Fluid开启Prometheus监控和Fluid监控大盘。具体操作,请参见查看Fluid大盘数据。
监控大盘变量说明
监控大盘变量的取值会影响监控大盘Panel的监控数据,您可以按照实际需要选择变量值。例如,将Runtime的变量类型从AlluxioRuntime调整为JindoRuntime后,整个监控面板与Runtime相关的Panel都会从AlluxioRuntime切换为JindoRuntime。
变量名 | 可选值 | 说明 |
interval | 1m、5m、10m、30m、1h、6h | 一个监控周期的时间长度。 |
quantile | 0.5、0.75、0.90、0.95、0.99 | 部分Panel可视化指标使用的是指标分位数。例如,0.90表示显示各指标的P90分位数。 |
runtime |
| Fluid中使用的Runtime类型。调整该变量将切换整个监控面板与Runtime相关的Panel。 |
监控大盘Panel说明
Panel组 | Panel名称 | 说明 |
组件运行状态 | Dataset控制器就绪副本数 | 表示集群当前处于Running状态的Dataset Controller Pod的数量。 |
历史Dataset控制器重启次数 | 表示集群当前Dataset Controller Pod的历史总重启次数。 | |
Runtime控制器就绪副本数 | 表示集群当前处于Running状态的Runtime Controller Pod数量。 | |
历史Runtime控制器重启次数 | 表示集群当前Runtime Controller Pod的历史总重启次数。 | |
Fluid Webhook就绪副本数 | 表示集群当前处于Running状态的Fluid Webhook Pod数量。 | |
历史Fluid Webhook控制器重启次数 | 表示集群当前Fluid Webhook Pod的历史总重启次数。 | |
Fluid CSI插件就绪副本数 | 表示集群当前处于Running状态的Fluid CSI Plugin Pod数量。 | |
历史Fluid CSI插件重启次数 | 表示集群当前Fluid CSI Plugin Pod的历史总重启次数。 | |
Fluid组件重启情况 | 表示集群在2分钟监控周期内,各组件发生重启的次数,仅显示发生重启次数最多的5个组件。 | |
Fluid控制器详细指标 | Runtime控制器处理耗时 | 表示在一个监控周期内,Runtime控制器处理对应Runtime资源的耗时,以分位数显示。 |
Runtime控制器处理失败数量 | 表示在一个监控周期内,Runtime控制器处理对应Runtime资源时的失败类型和次数,失败类型包括:
| |
Runtime控制器线程数 | 表示当前Runtime控制器的活跃线程数和最大可用线程数。 | |
DataLoad控制器线程数 | 表示当前DataLoad控制器的活跃线程数和最大可用线程数。 | |
控制器队列长度 | 表示集群当前Fluid各控制器处理队列长度。 | |
Kubernetes API总请求量 | 表示在一个监控周期内,Fluid控制面各组件Pod向Kubernetes API Server发送的总请求量。 | |
Runtime控制器Kubernetes API请求量 | 表示在一个监控周期内,Runtime控制器向Kubernetes API Server发送的请求量,根据请求类型返回的状态码进行区分显示。 | |
控制器未完成处理过程总耗时 | 表示集群各Fluid控制器正在处理但还未完成的处理过程的累计耗时。 | |
Fluid Webhook详细指标 | Fluid Webhook Pod CPU使用量 | 表示在一个监控周期内,各个Fluid Webhook Pod的CPU利用率。 |
Fluid Webhook Pod 内存使用量 | 表示在一个监控周期内,各个Fluid Webhook Pod的内存使用量。 | |
Fluid Webhook过去时间间隔总计处理请求量 | 表示在一个监控周期内,Fluid Webhook整体总计处理的请求量。 | |
各Fluid Webhook过去时间间隔处理请求量 | 表示在一个监控周期内,不同的Fluid Webhook Pod分别处理的请求量。 | |
Fluid Webhook请求处理时延 | 表示在一个监控周期内,Fluid Webhook整体的请求处理时延,以分位数显示。 | |
各Fluid Webhook Pod请求处理时延 | 表示在一个监控周期内,不同的Fluid Webhook Pod的请求处理时延,以分位数显示。 | |
资源使用 | CPU使用量 | 表示在一个监控周期内,Fluid控制面各组件Pod CPU使用率。 |
内存使用量 | 表示在一个监控周期内,Fluid控制面各组件Pod内存使用量。 | |
各Pod网络发送速率 | 表示在一个监控周期内,Fluid控制面各组件Pod网络数据包的发送速率。 | |
各Pod网络接收速率 | 表示在一个监控周期内,Fluid控制面各组件Pod网络数据包接收速率。 |