文档

开启Fluid控制面组件监控

更新时间:

Fluid是开源Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。Fluid提供面向应用的数据集统一抽象、可扩展的数据引擎插件、自动化数据操作、通用数据加速、运行时平台无关等核心功能。阿里云Prometheus监控支持一键安装Fluid组件,并提供开箱即用的监控大盘。本文介绍如何为Fluid开启Prometheus监控。

索引

前提条件

  • 已为ACK集群或ACK Serverless集群开启阿里云Prometheus监控。具体操作,请参见阿里云Prometheus监控

  • 已部署云原生AI套件(选择开启Fluid数据加速功能),并确保ack-fluid组件为0.9.7及以上版本。具体操作,请参见部署云原生AI套件

使用限制

  • 仅支持类型为Prometheus for 容器服务的Prometheus实例接入Fluid组件。

  • 仅支持对Fluid控制面组件进行监控,例如Fluid控制器、Fluid Webhook等组件。

接入Fluid

从集成中心接入

  1. 登录Prometheus控制台

  2. 在左侧导航栏单击实例列表,然后在Prometheus监控页面单击目标Prometheus实例名称,进入实例详情页面。

  3. 接入Fluid组件。

    • 若您初次安装Fluid组件:在集成中心页面的未安装区域,单击Fluid组件卡片的+ 安装安装

    • 若您的Prometheus实例已经安装Fluid组件,无需重复安装。

  4. STEP2区域配置相关参数,并单击确定,完成组件接入。

    配置项

    说明

    Exporter名称

    当前Fluid监控唯一名称。

    metrics采集间隔(秒)

    监控数据采集时间间隔。

    • STEP2区域的指标页签可查看监控指标。

    • 已接入的组件会显示在集成中心页面的已安装区域。单击该组件卡片,在弹出的面板中可以查看Targets指标大盘告警服务发现配置Exporter等信息。集成中心的更多信息,请参见集成中心

从接入中心接入

  1. 登录ARMS控制台

  2. 在左侧导航栏单击接入中心,然后在人工智能区域单击Fluid卡片的+ 安装安装

    若您的Prometheus实例已经安装Fluid组件,则无需重复安装。

  3. 接入 Fluid页面的右上角,选择集群所属地域。

  4. STEP 2区域,选择待接入容器服务集群。

  5. STEP 3区域配置相关参数,并单击确定,完成组件接入。

    配置项

    说明

    Exporter名称

    当前Fluid监控唯一名称。

    metrics采集间隔(秒)

    监控数据采集时间间隔。

    已接入的组件会在Fluid卡片显示已安装1个Exporter。单击该组件卡片,在弹出的面板中可以查看Targets指标大盘告警服务发现配置Exporter等信息。接入中心的更多信息,请参见接入指南

查看Fluid大盘数据

(推荐)从容器服务控制台查看Fluid大盘数据

  1. 登录容器服务管理控制台,在左侧导航栏单击集群

  2. 集群列表页面,单击已接入Fluid组件的ACK或ACK Serverless集群,然后在左侧导航栏,选择运维管理 > Prometheus 监控

  3. Prometheus监控页面,选择其他 > Fluid Control Plane,查看其监控大盘的详情数据。

    在Fluid大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明

    • 组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。组件运行状态

    • Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。控制器详细指标

    • Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。webhook详细指标

    • 资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。资源使用

从集成中心查看Fluid大盘数据

集成中心接入中心页面单击Fluid组件卡片,单击大盘页签,然后单击页面底部的Fluid Control Plane,您可以查看其监控大盘的详情数据。

在Fluid大盘中,您可以查看有关Fluid控制面组件的详情数据,Prometheus监控提供的Fluid大盘数据包括Fluid组件运行状态、Fluid控制器处理耗时、Fluid Webhook处理请求量QPS、请求处理时延,以及各组件资源使用量等等。更多详细信息,请参见Fluid监控大盘参数说明

  • 组件运行状态区域,可查看Fluid控制面组件的就绪Pod数量,历史重启次数和历史重启时刻等信息。

  • Fluid控制器详细指标区域,可查看Fluid控制器组件闲忙程度、处理失败情况、Kubernetes API请求等信息。

  • Fluid Webhook详细指标区域,可查看Fluid Webhook组件资源使用、请求处理数量以及请求处理时延等信息。

  • 资源使用区域,可查看Fluid控制面的全部组件的资源使用和网络收发速率等信息。

监控指标说明

Fluid控制面各组件使用的指标清单如下。

指标

类型

说明

dataset_ufs_total_size

Gauge

当前集群内存活的Dataset资源对象挂载的数据集大小。

dataset_ufs_file_num

Gauge

当前集群内存活的Dataset资源对象挂载的数据集文件数量。

runtime_setup_error_total

Counter

控制器Reoncile过程中启动Runtime操作失败数量。

runtime_sync_healthcheck_error_total

Counter

控制器Reconcile过程中Runtime健康检查操作失败数量。

controller_runtime_reconcile_time_seconds_bucket

Histogram

控制器Reconcile流程耗时。

controller_runtime_reconcile_errors_total

Counter

控制器Reconcile失败数量。

controller_runtime_reconcile_total

Counter

控制器已完成的Reconcile过程总数。

controller_runtime_max_concurrent_reconciles

Gauge

控制器的最大可用Reconcile协程数量。

controller_runtime_active_workers

Gauge

控制器当前处于活跃状态的Reconcile协程数量。

workqueue_adds_total

Counter

控制器Workqueue处理的Adds事件的数量。

workqueue_depth

Gauge

控制器Workqueue当前队列深度。

workqueue_queue_duration_seconds_bucket

Histogram

待处理对象在控制器Workqueue中等待时长。

workqueue_work_duration_seconds_bucket

Histogram

控制器历史已完成的处理过程的时长分布。

workqueue_unfinished_work_seconds

Gauge

控制器Workqueue中当前正在被处理,但还未处理完成的任务的总时长。

workqueue_longest_running_processor_seconds

Gauge

控制器历史处理过程最大时长。

rest_client_requests_total

Counter

从状态值(Status Code)、方法(Method)和主机(Host)维度分析的到的HTTP请求数。

rest_client_request_duration_seconds_bucket

Histogram

从方法(Verb)和URL维度分析得到的HTTP请求时延。

controller_runtime_webhook_requests_in_flight

Gauge

Webhook当前正在处理的请求数量。

controller_runtime_webhook_requests_total

Counter

Webhook处理请求数量。

controller_runtime_webhook_latency_seconds_bucket

Histogram

Webhook处理请求时延。

process_cpu_seconds_total

Counter

CPU使用时长。

process_resident_memory_bytes

Gauge

内存使用量。

相关文档

  • 本页导读 (1)
文档反馈