数据监控

更新时间:

通过查看CPFS智算版文件系统的容量监控和性能信息,您可以了解CPFS智算版文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为CPFS智算版文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍CPFS智算版文件系统支持的监控项以及其报警规则配置。

背景信息

云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控可用于监控各云服务资源的监控指标,并针对指定监控指标设置报警。使您全面了解阿里云上资源的使用情况和业务运行状况,并及时对故障资源进行处理,保证业务正常运行。更多信息,请参见什么是云监控

监控数据保留策略

监控数据保留90天,过期自动清除。起始时间为数据产生的时间。

监控指标

CPFS智算版支持通过云监控对文件系统容量、实例性能以及客户端性能进行全面监控。并为此提供了新版(推荐)和旧版两套监控指标。新版指标旨在解决旧版命名不规范、结构不清晰的问题,提供了更好的易用性和可维护性。

  • 新用户:建议直接使用新版指标。

  • 存量用户:可继续使用旧版以确保业务连续性,但建议逐步迁移至新版。

重要

存量用户如需切换使用新版指标,建议先在测试环境进行适配。

新版监控指标(推荐)

新版监控指标目前已在以下地域上线:华北2(北京)。

容量监控

类型

指标

指标名称

单位

说明

文件系统-标准规格

BmStdCapacity

智算版标准规格文件系统总存储空间

字节 (B)

文件系统的总存储空间。

BmStdCapacityUsed

智算版标准规格文件系统数据量

字节 (B)

文件系统当前实际使用的数据量。

BmStdInodeLimit

智算版标准规格文件系统最大文件数

文件系统可容纳的最大文件和目录总数。

BmStdInodeAlloc

智算版标准规格文件系统已分配文件数

文件系统当前已分配(创建)的文件和目录总数。

BmStdInodeUsed

智算版标准规格文件系统已使用文件数

文件系统当前实际使用的文件和目录总数。

文件系统-大规格

大规格文件系统仅对部分用户开放,非大规格文件系统用户请忽略大规格相关指标。

BmLargeCapacity

智算版大规格文件系统总存储空间

字节 (B)

文件系统的总存储空间。

BmLargeCapacityUsed

智算版大规格文件系统数据量

字节 (B)

文件系统当前实际使用的数据量。

BmLargeInodeLimit

智算版大规格文件系统最大文件数

文件系统可容纳的最大文件和目录总数。

BmLargeInodeAlloc

智算版大规格文件系统已分配文件数

文件系统当前已分配(创建)的文件和目录总数。

BmLargeInodeUsed

智算版大规格文件系统已使用文件数

文件系统当前实际使用的文件和目录总数。

Fileset-标准规格

BmStdFsetCapacityLimit

智算版标准规格 Fileset 容量配额

字节 (B)

为单个Fileset设置的容量配额上限。

BmStdFsetCapacityUsed

智算版标准规格 Fileset 当前容量

字节 (B)

单个Fileset当前实际使用的容量。

BmStdFsetInodeLimit

智算版标准规格 Fileset 文件数配额

为单个Fileset设置的文件和目录数量的配额上限。

BmStdFsetInodeAlloc

智算版标准规格 Fileset 预分配文件数

单个Fileset当前预分配的文件和目录总数。

BmStdFsetInodeUsed

智算版标准规格 Fileset 当前文件数

单个Fileset当前实际使用的文件和目录数量。

Fileset-大规格

大规格文件系统仅对部分用户开放,非大规格文件系统用户请忽略大规格相关指标。

BmLargeFsetCapacityLimit

智算版大规格 Fileset 容量配额

字节 (B)

为单个 Fileset 设置的可用容量上限。

BmLargeFsetCapacityUsed

智算版大规格 Fileset 当前容量

字节 (B)

单个 Fileset 当前实际使用的数据量。

BmLargeFsetInodeLimit

智算版大规格 Fileset 文件数配额

为单个 Fileset 设置的可容纳的最大文件和目录总数。

BmLargeFsetInodeAlloc

智算版大规格 Fileset 预分配文件数

单个 Fileset 当前已分配(创建)的文件和目录总数。

BmLargeFsetInodeUsed

智算版大规格 Fileset 当前文件数

单个 Fileset 当前实际使用的文件和目录总数。

性能监控

类型

指标

指标名称

单位

说明

文件系统-标准规格

BmStdReadThroughput

智算版标准规格文件系统读吞吐

字节/秒 (B/s)

文件系统在周期内每秒平均读吞吐字节。

BmStdWriteThroughput

智算版标准规格文件系统写吞吐

字节/秒 (B/s)

文件系统在周期内每秒平均写吞吐字节。

BmStdReadIops

智算版标准规格文件系统读IOPS

次/秒 (IOPS)

文件系统在周期内每秒平均读IOPS次数。

BmStdWriteIops

智算版标准规格文件系统写IOPS

次/秒 (IOPS)

文件系统在周期内每秒平均写IOPS次数。

BmStdReadLatency

智算版标准规格文件系统读延迟

毫秒 (ms)

文件系统在周期内的平均读延迟。

BmStdWriteLatency

智算版标准规格文件系统写延迟

毫秒 (ms)

文件系统在周期内的平均写延迟。

BmStdMetaQps

智算版标准规格文件系统元数据 QPS

次/秒 (IOPS)

文件系统在周期内每秒平均请求元数据次数。

BmStdMetaLatency

智算版标准规格文件系统元数据延迟

毫秒 (ms)

文件系统在周期内的元数据操作平均延迟。

文件系统-大规格

大规格文件系统仅对部分用户开放,非大规格文件系统用户请忽略大规格相关指标。

BmLargeReadThroughput

智算版大规格文件系统读吞吐

字节/秒 (B/s)

文件系统在周期内每秒平均读吞吐字节。

BmLargeWriteThroughput

智算版大规格文件系统写吞吐

字节/秒 (B/s)

文件系统在周期内每秒平均写吞吐字节。

BmLargeReadIops

智算版大规格文件系统读IOPS

次/秒 (IOPS)

文件系统在周期内每秒平均读IOPS次数。

BmLargeWriteIops

智算版大规格文件系统写IOPS

次/秒 (IOPS)

文件系统在周期内每秒平均写IOPS次数。

BmLargeReadLatency

智算版大规格文件系统读延迟

毫秒 (ms)

文件系统在周期内的平均读延迟。

BmLargeWriteLatency

智算版大规格文件系统写延迟

毫秒 (ms)

文件系统在周期内的平均写延迟。

BmLargeMetaQps

智算版大规格文件系统元数据操作 QPS

次/秒 (IOPS)

文件系统在周期内每秒平均请求元数据次数。

BmLargeMetaLatency

智算版大规格文件系统元数据操作延迟

微秒 (us)

文件系统在周期内的元数据操作平均延迟。

客户端

ClientReadThroughput

智算版客户端读吞吐

字节/秒 (B/s)

客户端在周期内的每秒平均读吞吐字节。

ClientWriteThroughput

智算版客户端写吞吐

字节/秒 (B/s)

客户端在周期内的每秒平均写吞吐字节。

ClientReadIops

智算版客户端读 IOPS

次/秒 (IOPS)

客户端在周期内的读IOPS每秒平均次数。

ClientWriteIops

智算版客户端写 IOPS

次/秒 (IOPS)

客户端在周期内的写IOPS每秒平均次数。

ClientReadLatency

智算版客户端读平均延迟

微秒 (us)

客户端在周期内的平均读延迟。

ClientWriteLatency

智算版客户端写平均延迟

微秒 (us)

客户端在周期内的平均写延迟。

ClientMetaLatency

智算版客户端元数据延迟

毫秒 (ms)

客户端完成单次元数据操作的平均延迟。

ClientMetaQps

智算版客户端元数据 QPS

次/秒 (IOPS)

客户端在周期内每秒平均请求元数据次数。

连接数

VpcClientCount

智算版VPC 客户端数量

通过VPC连接到文件系统的客户端总数。

RdmaClientCount

智算版RDMA 客户端数量

通过RDMA连接到文件系统的客户端总数。

说明
  • 弹性文件客户端是由CPFS团队装在计算节点上的客户端,用于计算节点连通CPFS智算版文件系统。

  • 客户端性能仅支持通过云监控控制台或调用云监控API查看,具体操作,请参见查看CPFS性能监控查看CPFS性能监控

  • ECSPAI灵骏智算(单租版)资源中使用CPFS智算版文件系统时,hostname为节点的主机名。

  • PAI通用计算资源或PAI灵骏智算资源中使用CPFS智算版文件系统时,hostname为任务的pod id。

  • 更多新版监控指标信息可在云监控指标查询查看。

旧版监控指标

容量监控

类型

指标

指标名称

单位

说明

文件系统

CPFSCapacity

总存储空间

字节

文件系统在周期内的总存储空间。

CPFSCapacityUsed

数据量

字节

文件系统在周期内实际使用的数据量。

CPFSInode Limit

最大文件数

文件系统在周期内的可使用的最大文件数量。

CPFSInode Alloc

已分配文件数

文件系统在周期内已分配的文件数量。

CPFSInode Used

已使用文件数

文件系统在周期内已使用的文件数量。

Fileset

BMCPFSFsetCapacityLimit

Fileset已分配容量

字节

已分配容量为Fileset最多可写入的容量空间,达到配额上限后无法再写入新数据。

BMCPFSFsetCapacityUsed

Fileset已使用容量

字节

Fileset的实际已使用容量。

BMCPFSFsetInodeLimit

Fileset已分配文件数

已分配文件数为Fileset最多可写入的文件与目录数量,达到配额上限后无法再写入数据。

BMCPFSFsetInodeUsed

Fileset已使用文件数

Fileset的实际已使用文件数。

性能监控

类型

指标

指标名称

单位

说明

文件系统

ThruputRead

读吞吐

字节/秒

文件系统在周期内每秒平均读吞吐字节。

ThruputWrite

写吞吐

字节/秒

文件系统在周期内每秒平均写吞吐字节。

IopsRead

IOPS

次/秒

文件系统在周期内每秒平均读IOPS次数。

IopsWrite

IOPS

次/秒

文件系统在周期内每秒平均写IOPS次数。

数据流动

ThroughputImport

导入吞吐

字节/秒

数据流动导入任务在周期内每秒平均吞吐字节。

ThroughputExport

导出吞吐

字节/秒

数据流动导出任务在周期内每秒平均吞吐字节。

QPSImportMeta

导入元数据QPS

次/秒

数据流动导入任务在周期内每秒平均请求元数据次数。

QPSExportMeta

导出元数据QPS

次/秒

数据流动导出任务在周期内每秒平均请求元数据次数。

IOPSImport

导入IOPS

次/秒

数据流动导入任务在周期内IOPS每秒平均次数。

IOPSEXport

导出IOPS

次/秒

数据流动导出任务在周期内IOPS每秒平均次数。

LatencyImport

导入延迟

us

数据流动导入任务在周期内的平均延迟。

LatencyExport

导出延迟

us

数据流动导出任务在周期内的平均延迟。

客户端

ClientReadIops

客户端读IOPS

次/秒

客户端在周期内的读IOPS每秒平均次数。

ClientWriteIops

客户端写IOPS

次/秒

客户端在周期内的写IOPS每秒平均次数。

ClientReadLatency

客户端读平均延迟

us

客户端在周期内的平均读延迟。

ClientWriteLatency

客户端写平均延迟

us

客户端在周期内的平均写延迟。

ClientReadThroughput

客户端读吞吐

字节/秒

客户端在周期内的每秒平均读吞吐字节。

ClientWriteThroughput

客户端写吞吐

字节/秒

客户端在周期内的每秒平均写吞吐字节。

说明
  • 弹性文件客户端是由CPFS团队装在计算节点上的客户端,用于计算节点连通CPFS智算版文件系统。

  • 客户端性能仅支持通过云监控控制台或调用云监控API查看,具体操作,请参见查看CPFS性能监控查看CPFS性能监控

  • ECSPAI灵骏智算(单租版)资源中使用CPFS智算版文件系统时,hostname为节点的主机名。

  • PAI通用计算资源或PAI灵骏智算资源中使用CPFS智算版文件系统时,hostname为任务的pod id。

  • 更多旧版监控指标信息可在云监控指标查询查看。

报警规则说明

通过云监控控制台,您可以为不同监控指标设置报警规则。当资源的监控指标达到报警条件时,云监控会自动发送报警通知。下表列出了报警规则的报警级别、通知机制以及报警条件信息。

报警等级

通知机制

报警条件

紧急Critical

电话+短信+邮件+钉钉机器人

连续N个周期监控指标的平均值与指定阈值满足所设置的判断条件。其中N值请根据报警等级进行区分设置。

说明

当所选的指标类型不同时,报警条件会存在差异,请以实际界面为准。

警告Warn

短信+邮件+钉钉机器人

普通Info

邮件+钉钉机器人

后续参考