通过云监控及时获取存储空间不足的实例信息

本教程以监控ECI实例的临时存储空间的利用率为例,介绍如何设置云监控的报警规则,以便及时获取临时存储空间不足的实例信息,进而可以及时创建新的实例来替换,避免因存储空间不足而导致数据无法写入,影响业务运行。

背景信息

云监控支持监控ECI实例的CPU利用率、内存利用率、存储空间容量等指标。基于这些指标,您可以设置报警规则,以便及时感知ECI实例的运行情况,并对异常实例进行处理。更多关于云监控支持的ECI监控指标,请参见使用云监控对ECI实例进行监控

操作步骤

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 单击创建报警规则

  4. 在弹出面板完成报警规则配置,然后单击确认

    需要注意的参数如下,未提及的参数可保持默认配置。更多关于报警规则的配置说明,请参见创建报警规则

    参数

    说明

    产品

    选择弹性容器实例ECI

    资源范围

    报警规则作用的资源范围。本教程选择实例

    • 全部资源:报警规则作用于指定云产品的全部资源上,对于新加入的资源生效。

    • 应用分组:报警规则作用于指定云产品的指定应用分组内的全部资源上,对于新加入的资源生效。

    • 实例:报警规则作用于指定云产品的指定资源上。

    关联资源

    当资源范围选择实例时,可指定具体的ECI实例。

    单击添加实例,在弹出的对话框中选择要监控的ECI实例。

    规则描述

    单击添加规则,选择简单指标,在弹出面板完成规则配置。

    本教程采用的规则示例如下:

    • 规则名称:test

    • 指标类型:简单指标

    • 监控指标:volume/存储卷空间利用率

    • 阈值及报警级别

      • 紧急:连续3个周期(1周期=1分钟),平均值≥90

      • 警告:连续3个周期(1周期=1分钟),平均值≥80

      • 普通:连续3个周期(1周期=1分钟),平均值≥70

    • 维度:EphemeralVolume

    关于如何设置复杂的报警条件,请参见报警规则表达式说明

    报警联系人组

    云监控默认将您的阿里云账号添加为报警联系人,并自动为其创建报警联系组。

    您也可以前往报警联系人页面创建新的报警联系人和报警联系人组。更多信息,请参见创建报警联系人或报警联系人组

后续操作

创建报警规则后,如果规则中设置的监控指标达到了报警阈值,系统会自动给设置的联系人发送通知。

短信通知示例如下:

存储空间报警-短信.png

您也可以在报警规则页面找到目标规则,单击报警历史来查看报警情况。

存储空间报警.png

收到报警通知后,请根据实际业务需求进行处理,例如:创建新的ECI实例并增加临时存储空间,以此来替换旧的存储空间不足的ECI实例。

相关文档

如果您通过Kubernetes集群使用ECI,可以为ECI Pod添加k8s.aliyun.com/eci-eviction-enable: "true"的Annotation,实现在某一ECI Pod的临时存储空间不足(低于100 MiB)时,自动驱逐该Pod。具体操作,请参见设置自动驱逐临时存储空间不足的Pod