Fluid监控大盘参数说明

本文介绍Fluid控制面监控大盘和JindoRuntime缓存系统监控大盘中变量和Panel的详细说明。大盘变量为Fluid可观测性指标提供了不同的维度(例如:监控周期长短、数据集命名空间与名称等);大盘Panel可以帮助您了解Fluid环境中组件的健康状况和性能表现。通过监控大盘,您可以及时发现并解决可能出现的问题,定位特定业务场景下缓存系统中潜在的优化项。

前提条件

已为Fluid开启Prometheus监控和Fluid监控大盘。具体操作,请参见步骤二:查看Fluid大盘数据

Fluid控制面监控大盘

监控大盘变量说明

监控大盘变量的取值会影响监控大盘Panel的监控数据,您可以按照实际需要选择变量值。例如,将runtime的变量类型从AlluxioRuntime调整为JindoRuntime后,监控大盘中的相关面板都会切换为JindoRuntime相关的数据。

变量名

可选值

说明

interval

1m、5m、10m、30m、1h、6h

一个监控周期的时间长度。

quantile

0.5、0.75、0.90、0.95、0.99

部分Panel可视化指标使用的是指标分位数。例如,0.90表示显示各指标的P90分位数。

runtime

  • JindoRuntime

  • AlluxioRuntime

  • JuiceFSRuntime

Fluid中使用的Runtime类型。调整该变量将切换整个监控面板与Runtime相关的Panel。

  • JindoRuntime:来源于阿里云EMR团队JindoFS,是基于C++实现的支撑Dataset数据管理和缓存的执行引擎,支持OSS对象存储。

  • AlluxioRuntime:来源于Alluxio社区,是支撑Dataset数据管理和缓存的执行引擎,支持PVC,Ceph,CPFS加速,有效支持混合云场景。

  • JuiceFSRuntime:是基于JuiceFS的分布式缓存加速引擎,支持场景化的数据缓存和加速能力。关于JuiceFS的更多信息,请参见JuiceFS简介

监控大盘Panel说明

Panel组

Panel名称

说明

组件运行状态

Dataset控制器就绪副本数

表示集群当前处于Running状态的Dataset Controller Pod的数量。

历史Dataset控制器重启次数

表示集群当前Dataset Controller Pod的历史总重启次数。

Runtime控制器就绪副本数

表示集群当前处于Running状态的Runtime Controller Pod数量。

历史Runtime控制器重启次数

表示集群当前Runtime Controller Pod的历史总重启次数。

Fluid Webhook就绪副本数

表示集群当前处于Running状态的Fluid Webhook Pod数量。

历史Fluid Webhook控制器重启次数

表示集群当前Fluid Webhook Pod的历史总重启次数。

Fluid CSI插件就绪副本数

表示集群当前处于Running状态的Fluid CSI Plugin Pod数量。

历史Fluid CSI插件重启次数

表示集群当前Fluid CSI Plugin Pod的历史总重启次数。

Fluid组件重启情况

表示集群在2分钟监控周期内,各组件发生重启的次数,仅显示发生重启次数最多的5个组件。

Fluid控制器详细指标

Runtime控制器处理耗时

表示在一个监控周期内,Runtime控制器处理对应Runtime资源的耗时,以分位数显示。

Runtime控制器处理失败数量

表示在一个监控周期内,Runtime控制器处理对应Runtime资源时的失败类型和次数,失败类型包括:

  • Runtime部署失败。

  • Runtime健康检查失败。

Runtime控制器线程数

表示当前Runtime控制器的活跃线程数和最大可用线程数。

DataLoad控制器线程数

表示当前DataLoad控制器的活跃线程数和最大可用线程数。

控制器队列长度

表示集群当前Fluid各控制器处理队列长度。

Kubernetes API总请求量

表示在一个监控周期内,Fluid控制面各组件Pod向Kubernetes API Server发送的总请求量。

Runtime控制器Kubernetes API请求量

表示在一个监控周期内,Runtime控制器向Kubernetes API Server发送的请求量,根据请求类型返回的状态码进行区分显示。

控制器未完成处理过程总耗时

表示集群各Fluid控制器正在处理但还未完成的处理过程的累计耗时。

Fluid Webhook详细指标

Fluid Webhook Pod CPU使用量

表示在一个监控周期内,各个Fluid Webhook Pod的CPU利用率。

Fluid Webhook Pod 内存使用量

表示在一个监控周期内,各个Fluid Webhook Pod的内存使用量。

Fluid Webhook过去时间间隔总计处理请求量

表示在一个监控周期内,Fluid Webhook整体总计处理的请求量。

各Fluid Webhook过去时间间隔处理请求量

表示在一个监控周期内,不同的Fluid Webhook Pod分别处理的请求量。

Fluid Webhook请求处理时延

表示在一个监控周期内,Fluid Webhook整体的请求处理时延,以分位数显示。

各Fluid Webhook Pod请求处理时延

表示在一个监控周期内,不同的Fluid Webhook Pod的请求处理时延,以分位数显示。

资源使用

CPU使用量

表示在一个监控周期内,Fluid控制面各组件Pod CPU使用率。

内存使用量

表示在一个监控周期内,Fluid控制面各组件Pod内存使用量。

各Pod网络发送速率

表示在一个监控周期内,Fluid控制面各组件Pod网络数据包的发送速率。

各Pod网络接收速率

表示在一个监控周期内,Fluid控制面各组件Pod网络数据包接收速率。

Fluid JindoRuntime缓存监控大盘

监控大盘变量说明

Fluid JindoRuntime缓存监控大盘支持根据监控大盘变量选中指定的Dataset数据集对象,并查看该Dataset数据集对象绑定的JindoRuntime缓存系统的相关指标。

变量名

说明

namespace

集群中存在的命名空间。

fluid_dataset

集群中存在的Fluid Dataset数据集对象的名字。

监控大盘Panel说明

Panel组

Panel名称

说明

Dataset Overview(数据集概览)

Ready Pod Num

(就绪Pod数量)

表示选中的缓存系统各组件(包括缓存系统Master、Worker、FUSE组件)就绪Pod的数量。

Pod Overview

(Pod概览)

表示选中的缓存系统各组件Pod的基本信息,包括最近一小时重启次数、CPU资源请求和限制、内存资源请求和限制。

Cache System Metrics

(缓存系统指标)

Cache Capacity Usage(%)

(已使用缓存容量百分比)

表示选中的缓存系统当前已使用的缓存容量占比。

Cache Capacity Usage

(缓存容量使用情况)

表示选中的缓存系统的最大可用缓存容量和当前已使用容量的具体数值。

Cache Hit Ratio Per Minute(每分钟缓存命中率)

表示选中的缓存系统按分钟周期统计的数据访问缓存命中率。

Read Bytes Per Minute(每分钟数据读取量)

表示选中的缓存系统统计的每分钟数据读取量,包括缓存命中时数据读取的总量(Cache Hit)和缓存未命中时触发回源数据读取的总量(From Backend)。

Cache System Aggregated Bandwidth(缓存系统聚合带宽)

表示选中的缓存系统为应用提供的聚合带宽。聚合带宽根据各Worker Pod网卡的出网流量加和计算得到。当Worker Pod以宿主机网络运行,该统计值可能偏大,如果需要获取精确的缓存系统聚合带宽数据,请确保Worker Pod以容器网络运行。

Cache Worker Pod Network I/O(缓存系统Worker Pod网络I/O情况)

表示选中的缓存系统中各Worker Pod网络I/O情况。当Worker Pod以宿主机网络运行,该统计值可能偏大,如果需要获取精确的缓存系统聚合带宽数据,请确保Worker Pod以容器网络运行。

Cache System Pod Memory Usage(缓存系统Pod内存使用情况)

表示选中的缓存系统中Master组件Pod和Worker组件Pod的内存使用情况。如果设置了使用Worker组件进程内存作为缓存介质,各个Worker组件Pod已占用的缓存容量将被算入其Pod内存使用中。

Cache System Pod CPU Usage by Cores(缓存系统CPU使用情况)

表示选中的缓存系统中Master组件Pod和Worker组件Pod的CPU使用情况。

Aggregated File Operation Requests(文件元数据操作请求频率)

表示选中的缓存系统统计的文件元数据操作请求频率,目前仅统计GetAttr和ReadDir两种元数据操作。

FUSE Metrics (via CSI)

(FUSE Pod客户端指标)

FUSE Network I/O(FUSE Pod网络I/O情况)

表示选中的缓存系统中各FUSE Pod网络I/O情况。当FUSE Pod以宿主机网络运行,该统计值可能偏大,如果需要获取精确的缓存系统聚合带宽数据,请确保FUSE Pod以容器网络运行。

FUSE Memory Usage/Limit(%) (FUSE进程内存使用资源限制百分比)

表示选中的缓存系统中各FUSE Pod当前内存使用占内存资源限制的百分比。当未设置FUSE Pod内存资源限制时,该指标值为空。

FUSE CPU Throttled Percent(FUSE进程CPU限流百分比)

表示选中的缓存系统中各FUSE Pod中CPU限流的百分比。当未设置FUSE Pod的CPU资源限制时,该指标值为空。

Meta Ops Per Second(每秒钟文件元数据操作频率)

表示选中的缓存系统中各FUSE Pod统计的每秒钟文件元数据操作频率。目前仅统计GetAttr、ReadDir、Open三种文件元数据操作。

Meta Ops P99 Latency(文件元数据操作P99分位延时)

表示选中的缓存系统中各FUSE Pod文件元数据操作P99分位延时。目前仅统计GetAttr、ReadDir、Open三种文件元数据操作。

Read/Write Ops Per Second(每秒钟文件读/写操作频率)

表示选中的缓存系统中各FUSE Pod统计的每秒钟文件读/写操作频率。

Read/Write Ops P99 Latency

表示选中的缓存系统中各FUSE Pod统计的文件读/写操作P99分位延时。

FUSE Metrics (via Sidecar) (FUSE边车容器客户端指标)

FUSE Memory Usage/Limit(%) (FUSE进程内存使用资源限制百分比)

表示选中的缓存系统中各FUSE边车容器当前内存使用占内存资源限制的百分比。当未设置FUSE边车容器内存资源限制时,该指标值为空。

FUSE CPU Throttled Percent(FUSE进程CPU限流百分比)

表示选中的缓存系统中各FUSE边车容器中CPU限流的百分比。当未设置FUSE边车容器CPU资源限制时,该指标值为空。

Meta Ops Per Second(每秒钟文件元数据操作频率)

表示选中的缓存系统中各FUSE边车容器统计的每秒钟文件元数据操作频率。目前仅统计GetAttr、ReadDir、Open三种文件元数据操作。

Meta Ops P99 Latency(文件元数据操作P99分位延时)

表示选中的缓存系统中各FUSE边车容器文件元数据操作P99分位延时。目前仅统计GetAttr、ReadDir、Open三种文件元数据操作。

Read/Write Ops Per Second(每秒钟文件读/写操作频率)

表示选中的缓存系统中各FUSE边车容器统计的每秒钟文件读/写操作频率。

Read/Write Ops P99 Latency

表示选中的缓存系统中各FUSE边车容器统计的文件读/写操作P99分位延时。