您可以通过阿里云云监控来监控文件系统读请求频率、读取请求大小、每秒读取字节数、存储空间等。并通过设置报警规则,及时获取异常信息。本文介绍如何查看性能监控详情及创建报警规则。

前提条件

已开通云监控服务。

您可以登录云监控产品详情页,根据页面提示开通服务。

性能监控指标说明

指标 指标名称 单位 描述
read_iops 文件系统读请求频率 次/秒 该文件系统在周期内每秒平均读请求次数。
read_iosize 文件系统读取请求大小 字节 该文件系统在周期内读取请求大小。
read_throughput 文件系统每秒读取字节数 字节/秒 该文件系统在周期内每秒平均读取大小。
remaining_storagespace 文件系统空间剩余量 字节 该文件系统在周期内存储空间的剩余空间。
storageutilization 文件系统空间使用率 % 该文件系统在周期内存储空间的使用率。
used_storagespace 文件系统空间使用量 字节 该文件系统在周期内存储空间的已使用量。
write_iops 文件系统写请求频率 次/秒 该文件系统在周期内每秒平均写请求评率次数。
write_iosize 文件系统写入请求大小 字节 该文件系统在周期内写入请求大小。
write_throughput 文件系统每秒写入字节数 字节/秒 该文件系统在周期内每秒平均写入字节数。

查看性能监控详情

  1. 登录云监控控制台
  2. 在左侧导航栏,选择Dashboard
  3. 单击云产品监控大盘页签。
  4. 在云产品名称下拉列表,选择文件存储HDFS,然后选择地域和文件系统,查看指定文件系统的性能监控详情。
    性能监控
    图表展示还支持以下功能:
    • 单击icon-伸图标,可以将图形放大展示。
    • 单击告警图标,可以对该图中展示的指标项设置相关报警规则。具体操作,请参见创建报警规则
    说明 当图表显示无数据,说明目标文件系统长时间没有向服务端发起足够多的请求。

创建报警规则

在创建报警规则前,请先阅读云监控提供的监控服务文档,了解基本概念并进行报警联系人和报警联系组的配置。
  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警规则,单击创建报警规则
  3. 创建报警规则页面,配置如下相关信息。
    配置项 说明
    产品 选择文件存储HDFS
    资源范围 报警规则作用的资源范围。取值:
    • 全部资源:报警规则作用于文件存储HDFS版的全部资源上。
    • 应用分组:报警规则作用于文件存储HDFS版的指定应用分组内的全部资源上。
    • 实例:报警规则作用于文件存储HDFS版的指定资源上。
    规则描述 报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:
    1. 单击添加规则
    2. 添加规则描述面板,设置规则名称、监控指标类型、监控指标、阈值、报警级别和报警方式等。
    3. 单击确定
    通道沉默周期 报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    说明 单击高级设置,可配置该参数。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    说明 单击高级设置,可配置该参数。
    报警联系人组 发送报警的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

    关于如何创建报警联系人和报警联系人组,请参见创建报警联系人和报警联系组

    报警回调 公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调
    弹性伸缩 如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectNameLogstore

    关于如何创建Project和Logstore,请参见快速入门

    无数据报警处理方法 无监控数据时报警的处理方式。取值:
    • 不做任何处理(默认值)
    • 发送无数据报警
    • 视为正常
  4. 单击确认,完成报警规则的设置。