数据监控

更新时间: 2024-12-18 14:16:29

通过查看CPFS智算版文件系统的容量监控和性能信息,您可以了解CPFS智算版文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为CPFS智算版文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍CPFS智算版文件系统支持的监控项以及其报警规则配置。

背景信息

云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控可用于监控各云服务资源的监控指标,并针对指定监控指标设置报警。使您全面了解阿里云上资源的使用情况和业务运行状况,并及时对故障资源进行处理,保证业务正常运行。更多信息,请参见什么是云监控

监控数据保留策略

监控数据保留90天,过期自动清除。起始时间为数据产生的时间。

监控项

CPFS智算版支持通过云监控对文件系统实例容量进行数据监控,支持对文件系统的实例的性能进行监控,同时也支持对计算节点中客户端的性能进行监控。

容量监控

类型

指标

指标名称

单位

说明

文件系统

CPFS Capacity

总存储空间

字节

文件系统在周期内的总存储空间。

CPFS Capacity Used

数据量

字节

文件系统在周期内实际使用的数据量。

CPFS Inode Limit

最大文件数

文件系统在周期内的可使用的最大文件数量。

CPFS Inode Alloc

已分配文件数

文件系统在周期内已分配的文件数量。

CPFS Inode Used

已使用文件数

文件系统在周期内已使用的文件数量。

Fileset

BMCPFSFsetCapacityLimit

Fileset已分配容量

字节

已分配容量为Fileset最多可写入的容量空间,达到配额上限后无法再写入新数据。

BMCPFSFsetCapacityUsed

Fileset已使用容量

字节

Fileset的实际已使用容量。

BMCPFSFsetInodeLimit

Fileset已分配文件数

已分配文件数为Fileset最多可写入的文件与目录数量,达到配额上限后无法再写入数据。

BMCPFSFsetInodeUsed

Fileset已使用文件数

Fileset的实际已使用文件数。

性能监控

类型

指标

指标名称

单位

说明

文件系统

ThruputRead

读吞吐

字节/秒

文件系统在周期内每秒平均读吞吐字节。

ThruputWrite

写吞吐

字节/秒

文件系统在周期内每秒平均写吞吐字节。

IopsRead

读IOPS

次/秒

文件系统在周期内每秒平均读IOPS次数。

IopsWrite

写IOPS

次/秒

文件系统在周期内每秒平均写IOPS次数。

数据流动

ThroughputImport

导入吞吐

字节/秒

数据流动导入任务在周期内每秒平均吞吐字节。

ThroughputExport

导出吞吐

字节/秒

数据流动导出任务在周期内每秒平均吞吐字节。

QPSImportMeta

导入元数据QPS

次/秒

数据流动导入任务在周期内每秒平均请求元数据次数。

QPSExportMeta

导出元数据QPS

次/秒

数据流动导出任务在周期内每秒平均请求元数据次数。

IOPSImport

导入IOPS

次/秒

数据流动导入任务在周期内IOPS每秒平均次数。

IOPSEXport

导出IOPS

次/秒

数据流动导出任务在周期内IOPS每秒平均次数。

LatencyImport

导入延迟

us

数据流动导入任务在周期内的平均延迟。

LatencyExport

导出延迟

us

数据流动导出任务在周期内的平均延迟。

客户端

ClientReadIops

客户端读IOPS

次/秒

客户端在周期内的读IOPS每秒平均次数。

ClientWriteIops

客户端写IOPS

次/秒

客户端在周期内的写IOPS每秒平均次数。

ClientReadLatency

客户端读平均延迟

us

客户端在周期内的平均读延迟。

ClientWriteLatency

客户端写平均延迟

us

客户端在周期内的平均写延迟。

ClientReadThroughput

客户端读吞吐

字节/秒

客户端在周期内的每秒平均读吞吐字节。

ClientWriteThroughput

客户端写吞吐

字节/秒

客户端在周期内的每秒平均写吞吐字节。

说明
  • 弹性文件客户端是由CPFS团队装在计算节点上的客户端,用于计算节点连通CPFS智算版文件系统。

  • 客户端性能仅支持通过云监控控制台或调用云监控API查看,具体操作,请参见使用云监控控制台使用云监控API

  • 在ECS或PAI灵骏智算(单租版)资源中使用CPFS智算版文件系统时,hostname为节点的主机名。

  • 在PAI通用计算资源或PAI灵骏智算资源中使用CPFS智算版文件系统时,hostname为任务的pod id。

报警规则说明

通过云监控控制台,您可以为不同监控指标设置报警规则。当资源的监控指标达到报警条件时,云监控会自动发送报警通知。下表列出了报警规则的报警级别、通知机制以及报警条件信息。

报警等级

通知机制

报警条件

紧急Critical

电话+短信+邮件+钉钉机器人

连续N个周期监控指标的平均值与指定阈值满足所设置的判断条件。其中N值请根据报警等级进行区分设置。

说明

当所选的指标类型不同时,报警条件会存在差异,请以实际界面为准。

警告Warn

短信+邮件+钉钉机器人

普通Info

邮件+钉钉机器人

后续参考

上一篇: 恢复数据 下一篇: 查看CPFS容量监控