性能监控

您可以通过阿里云云监控来监控文件系统读请求频率、读取请求大小、每秒读取字节数、存储空间等。并通过设置报警规则,及时获取异常信息。本文介绍如何查看性能监控详情及创建报警规则。

前提条件

性能监控指标说明

指标

指标名称

单位

描述

read_iops

文件系统读请求频率

次/秒

该文件系统在周期内每秒平均读请求次数。

read_iosize

文件系统读取请求大小

字节

该文件系统在周期内读取请求大小。

read_throughput

文件系统每秒读取字节数

字节/秒

该文件系统在周期内每秒平均读取大小。

remaining_storagespace

文件系统空间剩余量

字节

该文件系统在周期内存储空间的剩余空间。

storageutilization

文件系统空间使用率

%

该文件系统在周期内存储空间的使用率。

used_storagespace

文件系统空间使用量

字节

该文件系统在周期内存储空间的已使用量。

write_iops

文件系统写请求频率

次/秒

该文件系统在周期内每秒平均写请求次数。

write_iosize

文件系统写入请求大小

字节

该文件系统在周期内写入请求大小。

write_throughput

文件系统每秒写入字节数

字节/秒

该文件系统在周期内每秒平均写入字节数。

查看性能监控详情

  1. 登录云监控控制台

  2. 在左侧导航栏,选择云产品监控

  3. 云产品监控页面,输入HDFS后,单击文件存储HDFS

  4. 文件存储HDFS页面,选择地域和文件系统后,查看指定文件系统的性能监控详情。

    性能监控

    图表展示还支持以下功能:

    • 单击icon-伸图标,可以将图形放大展示。

    • 单击告警图标,可以对该图中展示的指标项设置相关报警规则。具体操作,请参见创建报警规则

    说明

    在文件系统创建成功后,需要等待10分钟左右才会有数据。如果图表一直显示无数据,请加入钉群(钉群号:31356539)咨询。

创建报警规则

在创建报警规则前,请先阅读云监控提供的监控服务文档,了解基本概念并进行报警联系人和报警联系组的配置。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则,单击创建报警规则

  3. 创建报警规则页面,配置如下相关信息。

    配置项

    说明

    产品

    选择文件存储HDFS

    资源范围

    报警规则作用的资源范围。取值:

    • 全部资源:报警规则作用于文件存储 HDFS 版的全部资源上。

    • 应用分组:报警规则作用于文件存储 HDFS 版的指定应用分组内的全部资源上。

    • 实例:报警规则作用于文件存储 HDFS 版的指定资源上。

    规则描述

    报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则

    2. 添加规则描述面板,设置规则名称、指标类型、监控指标、阈值、报警级别和报警方式等。

    3. 单击确定

    通道沉默周期

    报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    生效时间

    报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。

    报警联系人组

    发送报警的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

    关于如何创建报警联系人和报警联系人组,请参见创建报警联系人和报警联系组

    标签

    报警规则的标签。包括标签名称和标签值。

    报警回调

    公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调

    当您需要测试报警回调地址的连通性时,可以执行以下操作。

    1. 单击回调地址正后方的测试

      WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。

      说明

      您还可以设置Webhook的回调模板类型语言,再次单击测试,获取对应的测试结果详情。

    2. 单击关闭

    说明

    单击高级设置,可配置该参数。

    弹性伸缩

    如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则

    说明

    单击高级设置,可配置该参数。

    日志服务

    如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectNameLogstore

    关于如何创建Project和Logstore,请参见快速入门

    说明

    单击高级设置,可配置该参数。

    消息服务MNS-Topic

    如果您打开消息服务MNS-Topic开关,当报警发生时,会将报警信息写入消息服务的主题。您需要设置消息服务的地域和主题。

    关于如何创建主题,请参见创建主题

    说明

    单击高级设置,可配置该参数。

    函数计算

    如果您打开函数计算开关,当报警发生时,会将报警通知发送至函数计算进行格式处理。您需要设置函数计算的地域、服务和函数。

    关于如何设置服务和函数,请参见快速创建函数

    说明

    单击高级设置,可配置该参数。

    无数据处理方法

    无监控数据时报警的处理方式。取值:

    • 不做任何处理(默认值)

    • 发送无数据报警

    • 视为恢复

    说明

    单击高级设置,可配置该参数。

  4. 单击确认,完成报警规则的设置。

    当文件系统的监控项超过设定阈值后会自动发送报警通知,使您及时获取监控数据异常。

相关操作