开启Fluid组件监控

Fluid是开源Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。Fluid提供面向应用的数据集统一抽象、可扩展的数据引擎插件、自动化数据操作、通用数据加速、运行时平台无关等核心功能。阿里云Prometheus监控支持一键安装Fluid组件,并提供开箱即用的监控大盘。本文介绍如何为Fluid开启Prometheus监控。

前提条件

  • 已为ACK集群或ACK Serverless集群开启阿里云Prometheus监控。具体操作,请参见使用阿里云Prometheus监控

  • 已部署云原生AI套件(选择开启Fluid数据加速功能)。具体操作,请参见部署云原生AI套件

    • 如需使用Fluid控制面监控大盘的完整能力,请确保集群中运行的ack-fluid组件版本为0.9.7及以上。

    • 如需使用Fluid JindoRuntime缓存系统监控大盘的完整能力,请确保集群中运行的ack-fluid组件版本为1.0.11及以上。

使用限制

  • 仅支持类型为Prometheus for 容器服务的Prometheus实例接入Fluid组件。

  • 缓存系统监控大盘仅支持对JindoRuntime类型(JindoCache缓存引擎)的缓存运行时组件进行监控。

步骤一:接入Fluid

  1. 登录ARMS控制台

  2. 在左侧导航栏单击接入中心,然后在人工智能区域单击Fluid卡片。

  3. Fluid页面的选择容器服务集群区域,选择目标集群。若显示已经安装Fluid组件,则无需再重复安装。

  4. 配置信息区域配置参数,然后单击确定,完成组件接入。

    配置项

    说明

    接入名称(非必填)

    当前Fluid监控唯一名称,可留空。

    metrics采集间隔(秒)

    监控数据采集时间间隔。

  5. 已接入的组件可在ARMS控制台的接入管理页面查看。

    1. 登录ARMS控制台

    2. 在左侧导航栏单击接入管理,然后选择已接入Fluid监控组件的容器环境。

    3. 在容器环境的组件类型中选择Fluid,即可查看Fluid的组件、大盘告警规则等信息。

接入中心的更多信息,请参见接入指南

步骤二:查看Fluid大盘数据

(推荐)从容器服务控制台查看Fluid大盘数据

  1. 登录容器服务管理控制台,在左侧导航栏单击集群

  2. 集群列表页面,单击已接入Fluid组件的ACK集群或ACK Serverless集群,然后在左侧导航栏,选择运维管理 > Prometheus 监控

  3. Prometheus监控页面,选择其他 > Fluid Control Plane,查看Fluid控制面监控大盘的详情数据。

    在Fluid控制面监控大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明

    • 组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。组件运行状态

    • Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。控制器详细指标

    • Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。webhook详细指标

    • 资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。资源使用

  4. Prometheus监控页面,选择其他 > Fluid JindoRuntime Dashboard ,查看Fluid JindoRuntime缓存系统监控大盘的详情数据。

    在Fluid JindoRuntime缓存系统监控大盘中,您可以查看有关Fluid JindoRuntime缓存系统的详情数据,大盘数据包括Fluid Dataset概览、缓存系统监控指标、FUSE客户端监控指标等。更多详细信息,请参见Fluid监控大盘参数说明

    • Dataset Overview(数据集概览)区域,可查看选中的Fluid数据集的概览信息,包括缓存系统中正常运行的Master组件Pod、Worker组件Pod、FUSE组件Pod的数量,以及各Pod的资源配置情况。

      image

    • Cache System Metrics(缓存系统指标)区域,可查看选中的缓存系统服务端指标,包括缓存系统当前已使用的缓存容量、缓存命中率、缓存系统聚合带宽以及缓存系统处理文件元信息操作的QPS等。

      image

    • FUSE Metrics (via CSI)(FUSE Pod客户端指标)区域,可查看通过Fluid CSI插件和FUSE Pod方式挂载的FUSE文件系统的客户端指标,包括各FUSE Pod的网络I/O情况、元数据操作延时和QPS、读写数据操作延时和QPS等。

      image

    • FUSE Metrics (via Sidecar)(FUSE Sidecar容器客户端指标)区域,可查看通过Fluid FUSE Sidecar方式挂载的FUSE文件系统的客户端指标,包括元数据操作延时和QPS、读写数据操作延时和QPS等。

      image

从ARMS控制台查看Fluid大盘数据

  1. 登录ARMS控制台

  2. 左侧导航栏单击接入管理,在组件类型区域选择Fluid,并单击右侧的大盘页签,然后单击页面底部的Fluid Control Plane,您可以查看Fluid控制面监控大盘的详情数据。

    在Fluid大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明

    • 组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。

    • Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。

    • Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。

    • 资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。

  3. 左侧导航栏单击接入管理,在组件类型区域选择Fluid,并单击右侧的大盘页签,然后单击页面底部的Fluid JindoRuntime Dashboard,您可以查看Fluid JindoRuntime缓存系统监控大盘的详情数据。

    • Dataset Overview(数据集概览)区域,可查看选中的Fluid数据集的概览信息,包括缓存系统中正常运行的Master组件Pod、Worker组件Pod、FUSE组件Pod的数量,以及各Pod的资源配置情况。

    • Cache System Metrics(缓存系统指标)区域,可查看选中的缓存系统服务端指标,包括缓存系统当前已使用的缓存容量、缓存命中率、缓存系统聚合带宽以及缓存系统处理文件元信息操作的QPS等。

    • FUSE Metrics (via CSI)(FUSE Pod客户端指标)区域,可查看通过Fluid CSI插件和FUSE Pod方式挂载的FUSE文件系统的客户端指标,包括各FUSE Pod的网络I/O情况、元数据操作延时和QPS、读写数据操作延时和QPS等。

    • FUSE Metrics (via Sidecar)(FUSE Sidecar容器客户端指标)区域,可查看通过Fluid FUSE Sidecar方式挂载的FUSE文件系统的客户端指标,包括元数据操作延时和QPS、读写数据操作延时和QPS等。

监控指标说明

Fluid控制面各组件使用的指标清单如下。

指标

类型

说明

dataset_ufs_total_size

Gauge

当前集群内存活的Dataset资源对象挂载的数据集大小。

dataset_ufs_file_num

Gauge

当前集群内存活的Dataset资源对象挂载的数据集文件数量。

runtime_setup_error_total

Counter

控制器Reoncile过程中启动Runtime操作失败数量。

runtime_sync_healthcheck_error_total

Counter

控制器Reconcile过程中Runtime健康检查操作失败数量。

controller_runtime_reconcile_time_seconds_bucket

Histogram

控制器Reconcile流程耗时。

controller_runtime_reconcile_errors_total

Counter

控制器Reconcile失败数量。

controller_runtime_reconcile_total

Counter

控制器已完成的Reconcile过程总数。

controller_runtime_max_concurrent_reconciles

Gauge

控制器的最大可用Reconcile协程数量。

controller_runtime_active_workers

Gauge

控制器当前处于活跃状态的Reconcile协程数量。

workqueue_adds_total

Counter

控制器Workqueue处理的Adds事件的数量。

workqueue_depth

Gauge

控制器Workqueue当前队列深度。

workqueue_queue_duration_seconds_bucket

Histogram

待处理对象在控制器Workqueue中等待时长。

workqueue_work_duration_seconds_bucket

Histogram

控制器历史已完成的处理过程的时长分布。

workqueue_unfinished_work_seconds

Gauge

控制器Workqueue中当前正在被处理,但还未处理完成的任务的总时长。

workqueue_longest_running_processor_seconds

Gauge

控制器历史处理过程最大时长。

rest_client_requests_total

Counter

从状态值(Status Code)、方法(Method)和主机(Host)维度分析的到的HTTP请求数。

rest_client_request_duration_seconds_bucket

Histogram

从方法(Verb)和URL维度分析得到的HTTP请求时延。

controller_runtime_webhook_requests_in_flight

Gauge

Webhook当前正在处理的请求数量。

controller_runtime_webhook_requests_total

Counter

Webhook处理请求数量。

controller_runtime_webhook_latency_seconds_bucket

Histogram

Webhook处理请求时延。

process_cpu_seconds_total

Counter

CPU使用时长。

process_resident_memory_bytes

Gauge

内存使用量。

Fluid JindoRuntime缓存监控大盘中JindoCache缓存系统服务端暴露的指标清单如下。

指标清单

类型

解释

jindocache_server_total_stsnodes_num

Gauge

当前分布式缓存存活的Worker组件副本数量。

jindocache_server_total_disk_cap

Gauge

分布式缓存系统中以磁盘介质(包含tmpfs等内存盘)的缓存容量上限。

jindocache_server_total_used_disk_cap

Gauge

分布式缓存系统中已使用的磁盘介质(包含tmpfs等内存盘)缓存空间。

jindocache_server_total_mem_cap

Gauge

分布式缓存系统中以进程内存为介质的缓存容量上限。

jindocache_server_total_used_mem_cap

Gauge

分布式缓存系统中已使用的以进程内存为介质的缓存空间。

jindocache_server_total_used_rocksdb_cap

Gauge

分布式缓存系统中已使用的RocksDB。

jindocache_server_backend_read_bytes_total

Gauge

总计回源底层存储读取数据量大小,单位Byte。

回源底层存储读取指待读数据不在JindoCache分布式缓存中,需要回源底层存储系统进行读取的情况。

jindocache_server_backend_read_time_total

Gauge

回源底层存储读取数据总耗时,单位微秒。

jindocache_server_backend_readop_num_total

Gauge

总计回源底层存储读取数据次数,对应 JindoCache缓存中 Block 个数。

jindocache_server_backend_read_bytes_time_total_window

Gauge

一分钟内回源底层存储读取数据耗时,单位微秒。

jindocache_server_backend_read_bytes_total_window

Gauge

一分钟内回源底层存储读取总数据量大小,单位Byte。

jindocache_server_remote_read_bytes_total

Gauge

总计同集群内远端缓存命中读取数据量大小,单位Byte。

远端缓存命中指待读数据在JindoCache分布式缓存中,但是缓存数据与应用不在相同节点的情况。

jindocache_server_remote_read_time_total

Gauge

总计同集群内远端缓存命中读取数据总耗时,单位微秒。

jindocache_server_remote_readop_num_total

Gauge

总计同集群内远端缓存命中读取次数。

jindocache_server_remote_read_bytes_time_total_window

Gauge

一分钟内远端缓存命中读取总数据耗时,单位微秒。

jindocache_server_remote_read_bytes_total_window

Gauge

一分钟内远端缓存命中读取总数据量大小,单位Byte。

jindocache_server_local_read_bytes_total

Gauge

总计同集群内本地缓存命中读取数据量大小,单位Byte。

本地缓存命中指待读数据在JindoCache分布式缓存中,并且缓存数据与应用在相同节点的读取情况。

jindocache_server_local_read_time_total

Gauge

总计同集群内本地缓存命中读取数据总耗时,单位微秒。

jindocache_server_local_readop_num_total

Gauge

总计同集群内本地缓存命中读取次数。

jindocache_server_local_read_bytes_time_total_window

Gauge

一分钟内本地缓存命中读取总数据耗时,单位微秒。

jindocache_server_local_read_bytes_total_window

Gauge

一分钟内本地缓存命中读取总数据量大小,单位Byte。

jindocache_server_ns_filelet_op_count_total

Gauge

JindoCache Master组件侧统计的文件元信息操作(包括getAttr操作和listStatus操作)总数。

jindocache_server_ns_filelet_op_time_total

Gauge

JindoCache Master组件侧统计的处理文件元信息操作(包括getAttr操作和listStatus操作)的总耗时。

jindocache_server_ns_get_attr_op_total

Gauge

JindoCache Master组件侧统计的getAttr操作总数。

jindocache_server_ns_get_attr_time_total

Gauge

JindoCache Master组件侧统计的处理getAttr操作的总耗时。

jindocache_server_ns_get_attr_fallback_op_total

Gauge

JindoCache Master组件回源底层存储系统获取文件元信息的总次数。

jindocache_server_ns_list_status_op_total

Gauge

JindoCache Master组件侧统计的listStatus操作总数。

jindocache_server_ns_list_status_time_total

Gauge

JindoCache Master组件侧统计的处理listStatus操作的总耗时。

jindocache_server_ns_list_status_fallback_op_total

Gauge

JindoCache Master组件回源底层存储系统获取文件列表的总次数。

jindocache_server_dist_get_attr_op_num_total

Gauge

JindoCache客户端侧统计的getAttr操作总数。

jindocache_server_dist_get_attr_time_total

Gauge

JindoCache客户端侧统计的处理getAttr操作的总耗时。

jindocache_server_dist_list_dir_op_num_total

Gauge

JindoCache客户端侧统计的listStatus操作总数。

jindocache_server_dist_list_dir_time_total

Gauge

JindoCache客户端侧统计的处理listStatus操作的总耗时。

Fluid JindoRuntime缓存监控大盘中JindoCache缓存系统FUSE客户端暴露的指标清单如下。

指标清单

类型

解释

jindo_fuse_open_count

Gauge

Jindo FUSE客户端open操作次数。

jindo_fuse_open_latency

Gauge

Jindo FUSE客户端open操作P50分位延迟。

jindo_fuse_open_latency_80

Gauge

Jindo FUSE客户端open操作P80分位延迟。

jindo_fuse_open_latency_90

Gauge

Jindo FUSE客户端open操作P90分位延迟。

jindo_fuse_open_latency_99

Gauge

Jindo FUSE客户端open操作P99分位延迟。

jindo_fuse_open_latency_999

Gauge

Jindo FUSE客户端open操作千分之999分位延迟。

jindo_fuse_open_latency_9999

Gauge

Jindo FUSE客户端open操作万分之9999分位延迟。

jindo_fuse_getattr_count

Gauge

Jindo FUSE客户端getAttr操作次数。

jindo_fuse_getattr_latency

Gauge

Jindo FUSE客户端getAttr操作P50分位延迟。

jindo_fuse_getattr_latency_80

Gauge

Jindo FUSE客户端getAttr操作P80分位延迟。

jindo_fuse_getattr_latency_90

Gauge

Jindo FUSE客户端getAttr操作P90分位延迟。

jindo_fuse_getattr_latency_99

Gauge

Jindo FUSE客户端getAttr操作P99分位延迟。

jindo_fuse_getattr_latency_999

Gauge

Jindo FUSE客户端getAttr操作千分之999分位延迟。

jindo_fuse_getattr_latency_9999

Gauge

Jindo FUSE客户端getAttr操作万分之9999分位延迟。

jindo_fuse_readdir_count

Gauge

Jindo FUSE客户端readDir操作次数。

jindo_fuse_readdir_latency

Gauge

Jindo FUSE客户端readDir操作P50分位延迟。

jindo_fuse_readdir_latency_80

Gauge

Jindo FUSE客户端readDir操作P80分位延迟。

jindo_fuse_readdir_latency_90

Gauge

Jindo FUSE客户端readDir操作P90分位延迟。

jindo_fuse_readdir_latency_99

Gauge

Jindo FUSE客户端readDir操作P99分位延迟。

jindo_fuse_readdir_latency_999

Gauge

Jindo FUSE客户端readDir操作千分之999分位延迟。

jindo_fuse_readdir_latency_9999

Gauge

Jindo FUSE客户端readDir操作万分之9999分位延迟。

jindo_fuse_read_count

Gauge

Jindo FUSE客户端read操作次数。

jindo_fuse_read_latency

Gauge

Jindo FUSE客户端read操作P50分位延迟。

jindo_fuse_read_latency_80

Gauge

Jindo FUSE客户端read操作P80分位延迟。

jindo_fuse_read_latency_90

Gauge

Jindo FUSE客户端read操作P90分位延迟。

jindo_fuse_read_latency_99

Gauge

Jindo FUSE客户端read操作P99分位延迟。

jindo_fuse_read_latency_999

Gauge

Jindo FUSE客户端read操作千分之999分位延迟。

jindo_fuse_read_latency_9999

Gauge

Jindo FUSE客户端read操作万分之9999分位延迟。

jindo_fuse_write_count

Gauge

Jindo FUSE客户端write操作次数。

jindo_fuse_write_latency

Gauge

Jindo FUSE客户端write操作P50分位延迟。

jindo_fuse_write_latency_80

Gauge

Jindo FUSE客户端write操作P80分位延迟。

jindo_fuse_write_latency_90

Gauge

Jindo FUSE客户端write操作P90分位延迟。

jindo_fuse_write_latency_99

Gauge

Jindo FUSE客户端write操作P99分位延迟。

jindo_fuse_write_latency_999

Gauge

Jindo FUSE客户端write操作千分之999分位延迟。

jindo_fuse_write_latency_9999

Gauge

Jindo FUSE客户端write操作万分之9999分位延迟。

相关文档