数据监控
通过查看CPFS智算版文件系统的容量监控和性能信息,您可以了解CPFS智算版文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为CPFS智算版文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍CPFS智算版文件系统支持的监控项以及其报警规则配置。
背景信息
云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控可用于监控各云服务资源的监控指标,并针对指定监控指标设置报警。使您全面了解阿里云上资源的使用情况和业务运行状况,并及时对故障资源进行处理,保证业务正常运行。更多信息,请参见什么是云监控。
监控数据保留策略
监控数据保留90天,过期自动清除。起始时间为数据产生的时间。
监控指标
CPFS智算版支持通过云监控对文件系统容量、实例性能以及客户端性能进行全面监控。并为此提供了新版(推荐)和旧版两套监控指标。新版指标旨在解决旧版命名不规范、结构不清晰的问题,提供了更好的易用性和可维护性。
新用户:建议直接使用新版指标。
存量用户:可继续使用旧版以确保业务连续性,但建议逐步迁移至新版。
存量用户如需切换使用新版指标,建议先在测试环境进行适配。
新版监控指标(推荐)
新版监控指标目前已在以下地域上线:华北2(北京)。
容量监控
类型 | 指标 | 指标名称 | 单位 | 说明 |
文件系统-标准规格 | BmStdCapacity | 智算版标准规格文件系统总存储空间 | 字节 (B) | 文件系统的总存储空间。 |
BmStdCapacityUsed | 智算版标准规格文件系统数据量 | 字节 (B) | 文件系统当前实际使用的数据量。 | |
BmStdInodeLimit | 智算版标准规格文件系统最大文件数 | 个 | 文件系统可容纳的最大文件和目录总数。 | |
BmStdInodeAlloc | 智算版标准规格文件系统已分配文件数 | 个 | 文件系统当前已分配(创建)的文件和目录总数。 | |
BmStdInodeUsed | 智算版标准规格文件系统已使用文件数 | 个 | 文件系统当前实际使用的文件和目录总数。 | |
文件系统-大规格 大规格文件系统仅对部分用户开放,非大规格文件系统用户请忽略大规格相关指标。 | BmLargeCapacity | 智算版大规格文件系统总存储空间 | 字节 (B) | 文件系统的总存储空间。 |
BmLargeCapacityUsed | 智算版大规格文件系统数据量 | 字节 (B) | 文件系统当前实际使用的数据量。 | |
BmLargeInodeLimit | 智算版大规格文件系统最大文件数 | 个 | 文件系统可容纳的最大文件和目录总数。 | |
BmLargeInodeAlloc | 智算版大规格文件系统已分配文件数 | 个 | 文件系统当前已分配(创建)的文件和目录总数。 | |
BmLargeInodeUsed | 智算版大规格文件系统已使用文件数 | 个 | 文件系统当前实际使用的文件和目录总数。 | |
Fileset-标准规格 | BmStdFsetCapacityLimit | 智算版标准规格 Fileset 容量配额 | 字节 (B) | 为单个Fileset设置的容量配额上限。 |
BmStdFsetCapacityUsed | 智算版标准规格 Fileset 当前容量 | 字节 (B) | 单个Fileset当前实际使用的容量。 | |
BmStdFsetInodeLimit | 智算版标准规格 Fileset 文件数配额 | 个 | 为单个Fileset设置的文件和目录数量的配额上限。 | |
BmStdFsetInodeAlloc | 智算版标准规格 Fileset 预分配文件数 | 个 | 单个Fileset当前预分配的文件和目录总数。 | |
BmStdFsetInodeUsed | 智算版标准规格 Fileset 当前文件数 | 个 | 单个Fileset当前实际使用的文件和目录数量。 | |
Fileset-大规格 大规格文件系统仅对部分用户开放,非大规格文件系统用户请忽略大规格相关指标。 | BmLargeFsetCapacityLimit | 智算版大规格 Fileset 容量配额 | 字节 (B) | 为单个 Fileset 设置的可用容量上限。 |
BmLargeFsetCapacityUsed | 智算版大规格 Fileset 当前容量 | 字节 (B) | 单个 Fileset 当前实际使用的数据量。 | |
BmLargeFsetInodeLimit | 智算版大规格 Fileset 文件数配额 | 个 | 为单个 Fileset 设置的可容纳的最大文件和目录总数。 | |
BmLargeFsetInodeAlloc | 智算版大规格 Fileset 预分配文件数 | 个 | 单个 Fileset 当前已分配(创建)的文件和目录总数。 | |
BmLargeFsetInodeUsed | 智算版大规格 Fileset 当前文件数 | 个 | 单个 Fileset 当前实际使用的文件和目录总数。 |
性能监控
类型 | 指标 | 指标名称 | 单位 | 说明 |
文件系统-标准规格 | BmStdReadThroughput | 智算版标准规格文件系统读吞吐 | 字节/秒 (B/s) | 文件系统在周期内每秒平均读吞吐字节。 |
BmStdWriteThroughput | 智算版标准规格文件系统写吞吐 | 字节/秒 (B/s) | 文件系统在周期内每秒平均写吞吐字节。 | |
BmStdReadIops | 智算版标准规格文件系统读IOPS | 次/秒 (IOPS) | 文件系统在周期内每秒平均读IOPS次数。 | |
BmStdWriteIops | 智算版标准规格文件系统写IOPS | 次/秒 (IOPS) | 文件系统在周期内每秒平均写IOPS次数。 | |
BmStdReadLatency | 智算版标准规格文件系统读延迟 | 毫秒 (ms) | 文件系统在周期内的平均读延迟。 | |
BmStdWriteLatency | 智算版标准规格文件系统写延迟 | 毫秒 (ms) | 文件系统在周期内的平均写延迟。 | |
BmStdMetaQps | 智算版标准规格文件系统元数据 QPS | 次/秒 (IOPS) | 文件系统在周期内每秒平均请求元数据次数。 | |
BmStdMetaLatency | 智算版标准规格文件系统元数据延迟 | 毫秒 (ms) | 文件系统在周期内的元数据操作平均延迟。 | |
文件系统-大规格 大规格文件系统仅对部分用户开放,非大规格文件系统用户请忽略大规格相关指标。 | BmLargeReadThroughput | 智算版大规格文件系统读吞吐 | 字节/秒 (B/s) | 文件系统在周期内每秒平均读吞吐字节。 |
BmLargeWriteThroughput | 智算版大规格文件系统写吞吐 | 字节/秒 (B/s) | 文件系统在周期内每秒平均写吞吐字节。 | |
BmLargeReadIops | 智算版大规格文件系统读IOPS | 次/秒 (IOPS) | 文件系统在周期内每秒平均读IOPS次数。 | |
BmLargeWriteIops | 智算版大规格文件系统写IOPS | 次/秒 (IOPS) | 文件系统在周期内每秒平均写IOPS次数。 | |
BmLargeReadLatency | 智算版大规格文件系统读延迟 | 毫秒 (ms) | 文件系统在周期内的平均读延迟。 | |
BmLargeWriteLatency | 智算版大规格文件系统写延迟 | 毫秒 (ms) | 文件系统在周期内的平均写延迟。 | |
BmLargeMetaQps | 智算版大规格文件系统元数据操作 QPS | 次/秒 (IOPS) | 文件系统在周期内每秒平均请求元数据次数。 | |
BmLargeMetaLatency | 智算版大规格文件系统元数据操作延迟 | 微秒 (us) | 文件系统在周期内的元数据操作平均延迟。 | |
客户端 | ClientReadThroughput | 智算版客户端读吞吐 | 字节/秒 (B/s) | 客户端在周期内的每秒平均读吞吐字节。 |
ClientWriteThroughput | 智算版客户端写吞吐 | 字节/秒 (B/s) | 客户端在周期内的每秒平均写吞吐字节。 | |
ClientReadIops | 智算版客户端读 IOPS | 次/秒 (IOPS) | 客户端在周期内的读IOPS每秒平均次数。 | |
ClientWriteIops | 智算版客户端写 IOPS | 次/秒 (IOPS) | 客户端在周期内的写IOPS每秒平均次数。 | |
ClientReadLatency | 智算版客户端读平均延迟 | 微秒 (us) | 客户端在周期内的平均读延迟。 | |
ClientWriteLatency | 智算版客户端写平均延迟 | 微秒 (us) | 客户端在周期内的平均写延迟。 | |
ClientMetaLatency | 智算版客户端元数据延迟 | 毫秒 (ms) | 客户端完成单次元数据操作的平均延迟。 | |
ClientMetaQps | 智算版客户端元数据 QPS | 次/秒 (IOPS) | 客户端在周期内每秒平均请求元数据次数。 | |
连接数 | VpcClientCount | 智算版VPC 客户端数量 | 个 | 通过VPC连接到文件系统的客户端总数。 |
RdmaClientCount | 智算版RDMA 客户端数量 | 个 | 通过RDMA连接到文件系统的客户端总数。 |
弹性文件客户端是由CPFS团队装在计算节点上的客户端,用于计算节点连通CPFS智算版文件系统。
客户端性能仅支持通过云监控控制台或调用云监控API查看,具体操作,请参见查看CPFS性能监控或查看CPFS性能监控。
在ECS或PAI灵骏智算(单租版)资源中使用CPFS智算版文件系统时,hostname为节点的主机名。
在PAI通用计算资源或PAI灵骏智算资源中使用CPFS智算版文件系统时,hostname为任务的pod id。
更多新版监控指标信息可在云监控指标查询查看。
旧版监控指标
容量监控
类型 | 指标 | 指标名称 | 单位 | 说明 |
文件系统 | CPFSCapacity | 总存储空间 | 字节 | 文件系统在周期内的总存储空间。 |
CPFSCapacityUsed | 数据量 | 字节 | 文件系统在周期内实际使用的数据量。 | |
CPFSInode Limit | 最大文件数 | 个 | 文件系统在周期内的可使用的最大文件数量。 | |
CPFSInode Alloc | 已分配文件数 | 个 | 文件系统在周期内已分配的文件数量。 | |
CPFSInode Used | 已使用文件数 | 个 | 文件系统在周期内已使用的文件数量。 | |
Fileset | BMCPFSFsetCapacityLimit | Fileset已分配容量 | 字节 | 已分配容量为Fileset最多可写入的容量空间,达到配额上限后无法再写入新数据。 |
BMCPFSFsetCapacityUsed | Fileset已使用容量 | 字节 | Fileset的实际已使用容量。 | |
BMCPFSFsetInodeLimit | Fileset已分配文件数 | 个 | 已分配文件数为Fileset最多可写入的文件与目录数量,达到配额上限后无法再写入数据。 | |
BMCPFSFsetInodeUsed | Fileset已使用文件数 | 个 | Fileset的实际已使用文件数。 |
性能监控
类型 | 指标 | 指标名称 | 单位 | 说明 |
文件系统 | ThruputRead | 读吞吐 | 字节/秒 | 文件系统在周期内每秒平均读吞吐字节。 |
ThruputWrite | 写吞吐 | 字节/秒 | 文件系统在周期内每秒平均写吞吐字节。 | |
IopsRead | 读IOPS | 次/秒 | 文件系统在周期内每秒平均读IOPS次数。 | |
IopsWrite | 写IOPS | 次/秒 | 文件系统在周期内每秒平均写IOPS次数。 | |
数据流动 | ThroughputImport | 导入吞吐 | 字节/秒 | 数据流动导入任务在周期内每秒平均吞吐字节。 |
ThroughputExport | 导出吞吐 | 字节/秒 | 数据流动导出任务在周期内每秒平均吞吐字节。 | |
QPSImportMeta | 导入元数据QPS | 次/秒 | 数据流动导入任务在周期内每秒平均请求元数据次数。 | |
QPSExportMeta | 导出元数据QPS | 次/秒 | 数据流动导出任务在周期内每秒平均请求元数据次数。 | |
IOPSImport | 导入IOPS | 次/秒 | 数据流动导入任务在周期内IOPS每秒平均次数。 | |
IOPSEXport | 导出IOPS | 次/秒 | 数据流动导出任务在周期内IOPS每秒平均次数。 | |
LatencyImport | 导入延迟 | us | 数据流动导入任务在周期内的平均延迟。 | |
LatencyExport | 导出延迟 | us | 数据流动导出任务在周期内的平均延迟。 | |
客户端 | ClientReadIops | 客户端读IOPS | 次/秒 | 客户端在周期内的读IOPS每秒平均次数。 |
ClientWriteIops | 客户端写IOPS | 次/秒 | 客户端在周期内的写IOPS每秒平均次数。 | |
ClientReadLatency | 客户端读平均延迟 | us | 客户端在周期内的平均读延迟。 | |
ClientWriteLatency | 客户端写平均延迟 | us | 客户端在周期内的平均写延迟。 | |
ClientReadThroughput | 客户端读吞吐 | 字节/秒 | 客户端在周期内的每秒平均读吞吐字节。 | |
ClientWriteThroughput | 客户端写吞吐 | 字节/秒 | 客户端在周期内的每秒平均写吞吐字节。 |
弹性文件客户端是由CPFS团队装在计算节点上的客户端,用于计算节点连通CPFS智算版文件系统。
客户端性能仅支持通过云监控控制台或调用云监控API查看,具体操作,请参见查看CPFS性能监控或查看CPFS性能监控。
在ECS或PAI灵骏智算(单租版)资源中使用CPFS智算版文件系统时,hostname为节点的主机名。
在PAI通用计算资源或PAI灵骏智算资源中使用CPFS智算版文件系统时,hostname为任务的pod id。
更多旧版监控指标信息可在云监控指标查询查看。
报警规则说明
通过云监控控制台,您可以为不同监控指标设置报警规则。当资源的监控指标达到报警条件时,云监控会自动发送报警通知。下表列出了报警规则的报警级别、通知机制以及报警条件信息。
报警等级 | 通知机制 | 报警条件 |
紧急Critical | 电话+短信+邮件+钉钉机器人 | 连续N个周期监控指标的平均值与指定阈值满足所设置的判断条件。其中N值请根据报警等级进行区分设置。 说明 当所选的指标类型不同时,报警条件会存在差异,请以实际界面为准。 |
警告Warn | 短信+邮件+钉钉机器人 | |
普通Info | 邮件+钉钉机器人 |