Fluid支持对ACK集群中的各个JindoRuntime(JindoCache分布式缓存引擎)的监控指标进行采集,并提供开箱即用的JindoRuntime监控大盘。可被采集的监控指标包括缓存引擎服务端指标和FUSE客户端指标。出于性能考虑,默认配置下JindoRuntime FUSE客户端指标不对外暴露,因此无法在JindoRuntime监控大盘中查看到FUSE客户端的实时指标数据。本文介绍如何开启Fluid JindoRuntime FUSE客户端指标采集功能并在Fluid JindoRuntime监控大盘中查看监控数据。
前提条件
已为ACK集群或ACK Serverless集群开启阿里云Prometheus监控。具体操作,请参见使用阿里云Prometheus监控。
已安装云原生AI套件并部署ack-fluid组件,且ack-fluid版本为1.0.11及以上。具体操作,请参见部署云原生AI套件。
重要若您已安装开源Fluid,请卸载后再部署ack-fluid组件。
步骤一:接入Fluid
登录ARMS控制台。
在左侧导航栏单击接入中心,然后在人工智能区域单击Fluid卡片。
在Fluid页面的选择容器服务集群区域,选择目标集群。若显示已经安装Fluid组件,则无需再重复安装。
在配置信息区域配置参数,然后单击确定,完成组件接入。
配置项
说明
接入名称(非必填)
当前Fluid监控唯一名称,可留空。
metrics采集间隔(秒)
监控数据采集时间间隔。
已接入的组件可在ARMS控制台的接入管理页面查看。
登录ARMS控制台。
在左侧导航栏单击接入管理,然后单击已接入组件页签,选择单击Fluid组件的卡片。
在环境列表页签下,单击操作列的查看详情,即可查看目标集群Fluid的组件、大盘告警规则等信息。
接入中心的更多信息,请参见接入指南。
步骤二:配置JindoRuntime FUSE客户端的监控指标暴露与抓取策略
部署JindoRuntime时,可以通过spec.fuse.metrics.enabled
和spec.fuse.metrics.scrapeTarget
参数配置FUSE客户端的监控指标暴露功能和指标抓取策略。示例代码如下所示。
apiVersion: data.fluid.io/v1alpha1
kind: JindoRuntime
metadata:
name: hadoop
spec:
replicas: 2
fuse:
metrics:
enabled: true # 该参数设置为true,表示为JindoRuntime FUSE客户端打开指标暴露功能。
scrapeTarget: All # JindoRuntime FUSE客户端指标的抓取策略。
tieredstore:
levels:
- mediumtype: MEM
path: /dev/shm
volumeType: emptyDir
quota: 2Gi
high: "0.99"
low: "0.95"
spec.fuse.metrics.enabled
和spec.fuse.metrics.scrapeTarget
的参数说明如下。
如需查看JindoRuntime中完整的参数指标解释,请参考JindoFS加速OSS文件访问。
参数 | 说明 | 默认值 |
| 该指标声明了是否为JindoRuntime FUSE客户端打开指标暴露功能。 如果设置了 | false |
| 该指标声明了JindoRuntime FUSE客户端指标的抓取策略。目前支持以下4种抓取策略: 重要 请谨慎评估将
| None |
步骤三:查看Fluid JindoRuntime监控大盘
登录容器服务管理控制台,在左侧导航栏单击集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在Prometheus 监控页面,单击其他页签,然后选择Fluid JindoRuntime Dashboard,查看Fluid控制面监控大盘的详情数据。
如果开启了MountPod挂载模式下FUSE客户端的指标抓取(scrapeTarget设置为MountPod或All),那么可在FUSE Metrics (via CSI)(FUSE Pod客户端指标)区域查看FUSE客户端指标。
如果开启了Sidecar挂载模式下FUSE客户端的指标抓取(scrapeTarget设置为Sidecar或All),那么可在FUSE Metrics (via Sidecar)(FUSE Sidecar容器客户端指标)区域查看FUSE客户端指标。
关于Fluid JindoRuntime Dashboard的详细大盘数据和监控指标说明,请参见Fluid监控大盘参数说明和监控指标说明。