通过开启阿里云Prometheus监控,您可以全面监控集群内部和外部的存储资源,其中内部存储资源包括RootFS和Ephemeral Storage两种类型,外部存储资源包括云盘、NAS和OSS存储卷。容器存储监控还提供了多维度的存储基础指标,该类指标可供您免费使用。
集群内部存储资源监控
集群内部存储资源包括RootFS和Ephemeral Storage两种。
RootFS:容器运行时环境,包括所有容器运行时所需的数据和配置。监控时,可以查看RootFS的使用情况,包括使用量、使用率、空间使用分布等。
Ephemeral Storage:存储容器运行时的一些临时存储数据,主要存储容器运行时产生的临时文件和缓存。监控时,可以查看Ephemeral Storage的使用情况,包括使用量、使用率、空间使用分布等。
RootFS相关指标
若您的集群为1.22及以上版本,需升级CSI组件至v1.28.3-eb95171-aliyun或以上版本。组件变更记录请参见csi-plugin,如需升级,请同时升级csi-plugin和csi-provisioner。
指标 | 类型 | 说明 |
container_fs_limit_bytes | Gauge | RootFS空间总量。单位:字节(Byte)。 |
container_fs_usage_bytes | Gauge | RootFS空间使用量。单位:字节(Byte)。 |
container_fs_available_bytes | Gauge | RootFS空间剩余可用量。单位:字节(Byte)。 |
container_fs_inodes_total | Gauge | RootFS中的inode总数。 |
container_fs_inodes_used | Gauge | RootFS中已使用的inode数量。 |
container_fs_inodes_free | Gauge | RootFS中剩余可用的inode数量。 |
container_fs_reads_bytes_total | Gauge | RootFS读取的总字节数。 |
container_fs_writes_bytes_total | Gauge | RootFS写入的总字节数。 |
Ephemeral Storage相关指标
以下指标依赖于csi-plugin组件,CSI组件需为v1.28.3-eb95171-aliyun及以上版本。组件变更记录请参见csi-plugin,如需升级,请同时升级csi-plugin和csi-provisioner。
指标 | 类型 | 说明 |
ephemeral_storage_pod_limit_bytes | Gauge | Pod Ephemeral Storage空间总量。单位:字节(Byte)。 |
ephemeral_storage_pod_usage_bytes | Gauge | Pod Ephemeral Storage空间使用量。单位:字节(Byte)。 |
ephemeral_storage_pod_available_bytes | Gauge | Pod Ephemeral Storage空间剩余可用量。单位:字节(Byte)。 |
ephemeral_storage_pod_inodes_total | Gauge | Pod Ephemeral Storage中的inode总数。 |
ephemeral_storage_pod_inodes_used | Gauge | Pod Ephemeral Storage中已使用的inode数量。 |
ephemeral_storage_pod_inodes_free | Gauge | Pod Ephemeral Storage中剩余可用的inode数量。 |
集群外部存储资源监控
云盘存储卷相关指标
以下指标依赖于csi-plugin组件,CSI组件需为v1.18.8.46-afb19e46-aliyun或以上版本。组件变更记录请参见csi-plugin,如需升级,请同时升级csi-plugin和csi-provisioner。
指标 | 类型 | 说明 |
node_volume_capacity_bytes_total | Counter | 云盘空间总量。单位:字节(Byte)。 |
node_volume_capacity_bytes_used | Counter | 云盘空间使用量。单位:字节(Byte)。 |
node_volume_capacity_bytes_available | Counter | 云盘空间剩余可用量。单位:字节(Byte)。 |
node_volume_inodes_total | Counter | 云盘inode总数。 |
node_volume_inodes_used | Counter | 云盘已使用的inode数量。 |
node_volume_inodes_available | Counter | 云盘inode剩余可用数。 |
node_volume_read_bytes_total | Counter | 成功读取的总字节数。 |
node_volume_read_completed_total | Counter | 成功读取的总次数。 |
node_volume_read_merged_total | Counter | 内核合并读操作的次数。 |
node_volume_read_time_milliseconds_total | Counter | 读取操作的总耗时。单位:毫秒(Millisecond)。 |
node_volume_write_bytes_total | Counter | 成功写入的总字节数。 |
node_volume_write_completed_total | Counter | 成功写入的总次数。 |
node_volume_write_merged_total | Counter | 内核合并写操作的次数。 |
node_volume_write_time_milliseconds_total | Counter | 写入操作的总耗时。单位:毫秒(Millisecond)。 |
node_volume_io_now | Gauge | 目前正在进行中的I/O数量。 |
node_volume_io_time_seconds_total | Counter | I/O操作的总耗时。单位:秒(Second)。 |
NAS存储卷相关指标
以下指标依赖于csi-plugin组件,CSI组件需为v1.18.8.46-afb19e46-aliyun或以上版本。组件变更记录请参见csi-plugin,如需升级,请同时升级csi-plugin和csi-provisioner。
指标 | 类型 | 说明 |
node_volume_capacity_bytes_total | Counter | NAS存储卷空间总量。单位:字节(Byte)。 |
node_volume_capacity_bytes_used | Counter | NAS存储卷空间使用量。单位:字节(Byte)。 |
node_volume_capacity_bytes_available | Counter | NAS存储卷剩余可用量。单位:字节(Byte)。 |
node_volume_read_bytes_total | Counter | 成功读取的总字节数。 |
node_volume_read_sent_bytes_total | Counter | 读操作网络请求发送的总字节数。 |
node_volume_read_completed_total | Counter | 成功读取的总次数。 |
node_volume_read_transmissions_total | Counter | 读取操作网络请求总次数。 |
node_volume_read_timeouts_total | Counter | 读取操作超时总次数。 |
node_volume_read_time_milliseconds_total | Counter | 读取操作的总耗时。单位:毫秒(Millisecond)。 |
node_volume_read_queue_time_milliseconds_total | Counter | 读取操作在网络传输前的队列等待总时间。单位:毫秒(Millisecond)。 |
node_volume_read_rtt_time_milliseconds_total | Counter | 读取操作等待服务器响应的总时间。单位:毫秒(Millisecond)。 |
node_volume_write_bytes_total | Counter | 成功写入的总字节数。 |
node_volume_write_recv_bytes_total | Counter | 写入操作网络请求接收的总字节数。 |
node_volume_write_completed_total | Counter | 成功写入的总次数。 |
node_volume_write_transmissions_total | Counter | 写入操作网络请求总次数。 |
node_volume_write_timeouts_total | Counter | 写入操作超时总次数。 |
node_volume_write_time_milliseconds_total | Counter | 写入操作的总耗时。单位:毫秒(Millisecond)。 |
node_volume_write_queue_time_milliseconds_total | Counter | 写入操作在网络传输前的队列等待总时间。单位:毫秒(Millisecond)。 |
node_volume_write_rtt_time_milliseconds_total | Counter | 写入操作等待服务器响应的总时间。单位:毫秒(Millisecond)。 |
OSS存储卷相关指标
以下指标依赖于csi-plugin组件,CSI组件需为v1.22.14-820d8870-aliyun或以上版本。组件变更记录请参见csi-plugin,如需升级,请同时升级csi-plugin和csi-provisioner。
指标 | 类型 | 说明 |
node_volume_inode_bytes_total_counter | Counter | OSS存储卷中的 |
node_volume_inode_bytes_used_counter | Counter | OSS存储卷已使用的 |
node_volume_inode_bytes_available_counter | Counter | OSS存储卷中剩余可用的 |
node_volume_read_bytes_total_counter | Counter | 成功读取的总字节数。 |
node_volume_read_completed_total_counter | Counter | 成功读取的总次数。 |
node_volume_read_time_milliseconds_total_counter | Counter | 读取操作的总耗时。单位:毫秒(Millisecond)。 |
node_volume_write_bytes_total_counter | Counter | 成功写入的总字节数。 |
node_volume_write_completed_total_counter | Counter | 成功写入的总次数。 |
node_volume_write_time_milliseconds_total_counter | Counter | 写入操作的总耗时。单位:毫秒(Millisecond)。 |
node_volume_posix_mkdir_total_counter | Counter | POSIX |
node_volume_posix_rmdir_total_counter | Counter | POSIX |
node_volume_posix_opendir_total_counter | Counter | POSIX |
node_volume_posix_readdir_total_counter | Counter | POSIX |
node_volume_posix_read_total_counter | Counter | POSIX |
node_volume_posix_write_total_counter | Counter | POSIX |
node_volume_posix_flush_total_counter | Counter | POSIX |
node_volume_posix_fsync_total_counter | Counter | POSIX |
node_volume_posix_release_total_counter | Counter | POSIX |
node_volume_posix_create_total_counter | Counter | POSIX |
node_volume_posix_open_total_counter | Counter | POSIX |
node_volume_posix_access_total_counter | Counter | POSIX |
node_volume_posix_rename_total_counter | Counter | POSIX |
node_volume_posix_chown_total_counter | Counter | POSIX |
node_volume_posix_chmod_total_counter | Counter | POSIX |
node_volume_posix_truncate_total_counter | Counter | POSIX |
node_volume_oss_put_object_total_counter | Counter | OSS |
node_volume_oss_get_object_total_counter | Counter | OSS |
node_volume_oss_head_object_total_counter | Counter | OSS |
node_volume_oss_delete_object_total_counter | Counter | OSS |
node_volume_oss_post_object_total_counter | Counter | OSS |
node_volume_hot_spot_read_file_top | Gauge |
|
node_volume_hot_spot_write_file_top | Gauge |
|
node_volume_hot_spot_head_file_top | Gauge |
|
node_volume_backend_read_bytes_total_counter | Counter | OSS后端成功读取的字节总数。 |
node_volume_backend_write_bytes_total_counter | Counter | OSS后端成功写入的字节总数。 |
node_volume_backend_read_completed_total_counter | Counter | OSS后端成功读取的总次数。 |
node_volume_backend_write_completed_total_counter | Counter | OSS后端成功写入的总次数。 |
node_volume_backend_read_time_milliseconds_total_counter | Counter | OSS后端读取操作总耗时。单位:毫秒(Millisecond)。 |
node_volume_backend_write_time_milliseconds_total_counter | Counter | OSS后端写入操作总耗时。单位:毫秒(Millisecond)。 |
node_volume_backend_posix_getattr_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_getmode_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_access_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_lookup_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_mknod_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_remove_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_setattr_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_link_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_readlink_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_statfs_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_rename_total_counter | Counter | OSS后端POSIX |
node_volume_backend_posix_readdir_total_counter | Counter | OSS后端POSIX |
FUSE 挂载点相关指标
以下指标灰度发布中,且依赖于csi-plugin组件,CSI组件需为v1.32.2及以上版本。组件变更记录请参见csi-plugin,如需升级,请同时升级csi-plugin和csi-provisioner。
指标 | 类型 | 说明 |
node_volume_mount_retry_count | Counter | CSI创建FUSE类型挂载点时,因挂载超时或执行错误而触发的重试次数。 该值持续增长通常意味着挂载存在问题,会导致相关业务 Pod 处于在 |
node_volume_mount_point_failover_count | Counter | FUSE 挂载点因客户端进程崩溃等原因断连后,成功执行故障转移(Failover)并恢复健康状态的总次数。 此指标仅部分客户端类型支持。对于不支持的客户端,该值恒定为 |
node_volume_mount_point_status | Gauge | 挂载点的实时健康状态,
|
node_volume_last_fuse_client_exit_reason | Gauge | FUSE 客户端进程上一次非预期退出的时间戳及对应原因。例如, |