数据监控
通过查看CPFS智算版文件系统的容量监控和性能信息,您可以了解CPFS智算版文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为CPFS智算版文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍CPFS智算版文件系统支持的监控项以及其报警规则配置。
背景信息
云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控可用于监控各云服务资源的监控指标,并针对指定监控指标设置报警。使您全面了解阿里云上资源的使用情况和业务运行状况,并及时对故障资源进行处理,保证业务正常运行。更多信息,请参见什么是云监控。
监控数据保留策略
监控数据保留90天,过期自动清除。起始时间为数据产生的时间。
监控项
CPFS智算版支持通过云监控对文件系统实例容量进行数据监控,支持对文件系统的实例的性能进行监控,同时也支持对计算节点中客户端的性能进行监控。
容量监控
类型 | 指标 | 指标名称 | 单位 | 说明 |
文件系统 | CPFS Capacity | 总存储空间 | 字节 | 文件系统在周期内的总存储空间。 |
CPFS Capacity Used | 数据量 | 字节 | 文件系统在周期内实际使用的数据量。 | |
CPFS Inode Limit | 最大文件数 | 个 | 文件系统在周期内的可使用的最大文件数量。 | |
CPFS Inode Alloc | 已分配文件数 | 个 | 文件系统在周期内已分配的文件数量。 | |
CPFS Inode Used | 已使用文件数 | 个 | 文件系统在周期内已使用的文件数量。 | |
Fileset | BMCPFSFsetCapacityLimit | Fileset已分配容量 | 字节 | 已分配容量为Fileset最多可写入的容量空间,达到配额上限后无法再写入新数据。 |
BMCPFSFsetCapacityUsed | Fileset已使用容量 | 字节 | Fileset的实际已使用容量。 | |
BMCPFSFsetInodeLimit | Fileset已分配文件数 | 个 | 已分配文件数为Fileset最多可写入的文件与目录数量,达到配额上限后无法再写入数据。 | |
BMCPFSFsetInodeUsed | Fileset已使用文件数 | 个 | Fileset的实际已使用文件数。 |
性能监控
类型 | 指标 | 指标名称 | 单位 | 说明 |
文件系统 | ThruputRead | 读吞吐 | 字节/秒 | 文件系统在周期内每秒平均读吞吐字节。 |
ThruputWrite | 写吞吐 | 字节/秒 | 文件系统在周期内每秒平均写吞吐字节。 | |
IopsRead | 读IOPS | 次/秒 | 文件系统在周期内每秒平均读IOPS次数。 | |
IopsWrite | 写IOPS | 次/秒 | 文件系统在周期内每秒平均写IOPS次数。 | |
数据流动 | ThroughputImport | 导入吞吐 | 字节/秒 | 数据流动导入任务在周期内每秒平均吞吐字节。 |
ThroughputExport | 导出吞吐 | 字节/秒 | 数据流动导出任务在周期内每秒平均吞吐字节。 | |
QPSImportMeta | 导入元数据QPS | 次/秒 | 数据流动导入任务在周期内每秒平均请求元数据次数。 | |
QPSExportMeta | 导出元数据QPS | 次/秒 | 数据流动导出任务在周期内每秒平均请求元数据次数。 | |
IOPSImport | 导入IOPS | 次/秒 | 数据流动导入任务在周期内IOPS每秒平均次数。 | |
IOPSEXport | 导出IOPS | 次/秒 | 数据流动导出任务在周期内IOPS每秒平均次数。 | |
LatencyImport | 导入延迟 | us | 数据流动导入任务在周期内的平均延迟。 | |
LatencyExport | 导出延迟 | us | 数据流动导出任务在周期内的平均延迟。 | |
客户端 | ClientReadIops | 客户端读IOPS | 次/秒 | 客户端在周期内的读IOPS每秒平均次数。 |
ClientWriteIops | 客户端写IOPS | 次/秒 | 客户端在周期内的写IOPS每秒平均次数。 | |
ClientReadLatency | 客户端读平均延迟 | us | 客户端在周期内的平均读延迟。 | |
ClientWriteLatency | 客户端写平均延迟 | us | 客户端在周期内的平均写延迟。 | |
ClientReadThroughput | 客户端读吞吐 | 字节/秒 | 客户端在周期内的每秒平均读吞吐字节。 | |
ClientWriteThroughput | 客户端写吞吐 | 字节/秒 | 客户端在周期内的每秒平均写吞吐字节。 |
报警规则说明
通过云监控控制台,您可以为不同监控指标设置报警规则。当资源的监控指标达到报警条件时,云监控会自动发送报警通知。下表列出了报警规则的报警级别、通知机制以及报警条件信息。
报警等级 | 通知机制 | 报警条件 |
紧急Critical | 电话+短信+邮件+钉钉机器人 | 连续N个周期监控指标的平均值与指定阈值满足所设置的判断条件。其中N值请根据报警等级进行区分设置。 说明 当所选的指标类型不同时,报警条件会存在差异,请以实际界面为准。 |
警告Warn | 短信+邮件+钉钉机器人 | |
普通Info | 邮件+钉钉机器人 |