系统、存储告警

更新时间:
复制为 MD 格式

云原生多模数据库 Lindorm提供PB级存储容量和毫秒级响应能力,特别适合海量数据存储与实时分析场景。其内置的系统告警功能通过实时监控集群状态,对节点故障、存储空间不足等异常进行秒级响应,并支持自定义告警策略推送至钉钉、短信等渠道,有效保障业务连续性。

存储水位报警说明

  • 对于 Lindorm 集群而言,底层可能会有多种存储介质,一旦某种存储介质使用率达到 95%,为了保障集群稳定性,整个集群都会被禁写。

  • 可通过配置水位报警提前预警,及时扩容存储防止集群被禁写。

  • 对于老版本(LDFS版本小于4.5.11),只能配置热存使用报警,但如果您购买了容量型作为冷存或集群包含多种存储介质,它无法反映集群不同介质的存储使用率,建议先升级 LDFS 版本。

存储监控告警配置

创建存储告警规则

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 在左侧导航栏单击报警配置可以查看实例的告警规则。报警规则

  3. 单击创建Lindorm告警规则

  4. 创建Lindorm告警规则页面配置以下参数。

    参数

    说明

    告警名称

    告警的名称。

    检测类型

    选择静态阈值。

    Lindorm集群

    需要创建告警的Lindorm实例,即当前实例。

    告警分组

    选择Lindorm存储告警

    告警指标

    有多个可选,包含等。

存储引擎指标

Lindorm集群存储水位告警(推荐,LDFS版本>=4.5.11)

该指标反映Lindorm集群的当前存储水位,适用于高版本LDFS(>=4.5.11),它能够反映所有存储介质的最高水位。该指标数值为百分比,建议配置 > 85%短信告警,> 90%电话告警,当存储水位到达95%时,整个集群会被禁写。

image

Lindorm热存储使用比例

对于低版本底层存储引擎(版本号< 4.5.11),该指标数值为百分比,建议配置 > 85%短信告警,> 90%电话告警,当存储水位到达95%时,整个集群会被禁写。

image

集群容量告警

集群存储详情主要监控实例的存储空间使用情况。您需要关注存储(热存)水位(%)和冷存水位(%)指标,当两者中的任意一个水位百分比超过95%,系统将自动禁止数据写入。

建议您合理设置容量告警线(建议75%~80%)并及时关注告警消息,存储空间的已用占比达到设置的阈值时,及时扩容避免影响业务。

image.png