告警设置

云解析DNS会从系统负载、解析响应、网络连通等维度监控自建DNS集群的健康状况,您可根据业务需要配置告警,及时感知异常告警。

配置告警

重要

为防止因本地与云控制台之间的网络中断而导致告警通知失败,设置告警后,将由自建DNS软件的本地管控代理服务负责发送告警通知。

  1. 访问告警设置-自建DNS

  2. 填写告警通知设置告警通知方式,点击保存提交配置。

    表单项

    说明

    告警通知设置

    告警级别

    设置需要发送通知的告警级别。可选值包括:

    • 严重级别:对应告警事件里的严重

    • 高级及以上级别:包括告警事件里的严重

    • 中级及以上级别:包括告警事件里的严重

    • 所有级别:包括告警事件里的严重

    重复告警通知间隔

    设置重复告警的通知发送间隔。例如,选择间隔30秒通知,如果同一告警在距离上一次通知30秒内再次触发,则系统会等待间隔满30秒后再发送通知。

    可选值包括:间隔30秒通知间隔1分钟通知间隔3分钟通知间隔5分钟通知间隔10分钟通知间隔30分钟通知间隔60分钟通知间隔12小时通知间隔24小时通知不通知

    告警通知方式

    邮件通知

    启用后,当指定级别的告警触发通知时,系统将通过配置的SMTP服务器向联系人发送邮件。

    1. 页签切换到邮件通知(默认)。

    2. 点击切换开关,启用邮件通知

      image

    3. 点击邮件网关设置,配置发件邮箱的相关信息。

      image

    4. 填入需要接收事件通知的联系人。可填写多个邮件地址,每行一个。

    Webhook通知

    启用后,当指定级别的告警触发通知时,系统将通过HTTP/HTTPS协议向指定的Webhook地址(例如钉钉、企业微信、飞书)发送告警信息。

    1. 页签切换到Webhook通知

    2. 点击切换开关,启用Webhook通知

      image

    3. 填入钉钉、企业微信、飞书或自定义Webhooks地址。

    Syslog通知

    启用后,当指定级别的告警触发通知时,系统会将事件日志通过Syslog协议发送到远端的日志服务器。

    1. 页签切换到Syslog通知

    2. 点击切换开关,启用Syslog通知

      image

    3. 点击Syslog网关设置,选择Syslog推送协议tcp/udp,填写syslog服务器地址。

      image

告警列表

告警级别共4种:严重。分为如下6大类:

1、系统资源类告警

告警标题

告警级别

告警描述

CPU使用率超过60%

系统CPU整体使用率超过60%,可能影响系统性能。

单核心CPU利用率超过80%

单个CPU核心使用率超过80%,可能存在单线程性能瓶颈或负载不均衡问题。

内存使用率超过80%

系统内存使用率超过80%,可能导致系统响应变慢或出现内存不足的风险。

磁盘IO利用率超过60%

磁盘IO利用率超过60%,表示读写操作繁忙,可能影响系统整体性能。

磁盘使用超过80%

磁盘空间使用率超过80%,可能因磁盘空间耗尽导致系统故障。

磁盘只读模式

严重

磁盘变为只读状态,通常由硬件故障、文件系统错误或磁盘空间耗尽引起。

2、DNS解析服务类告警

告警标题

告警级别

告警描述

DNS解析流量异常

严重

DNS解析请求流量出现异常波动,可能是攻击、故障或配置问题导致。

当前阈值: 单机超8QPS。

解析服务延迟上升

DNS解析响应时间增加,影响用户体验,需要检查服务性能和网络状况。

当前阈值: 100ms。

解析服务成功率降低

DNS解析成功率下降,部分解析请求失败,可能影响业务正常运行。

当前阈值: 70%。

解析服务QPS总量突增告警

严重

DNS解析服务的每秒查询数突然大幅增加,可能是流量攻击或业务突发增长。

当前阈值:五分钟内徒增50%。

解析服务QPS总量突降告警

严重

DNS解析服务的每秒查询数突然大幅下降,可能是服务故障或流量异常。

当前阈值:五分钟内降低50%。

解析数据分发出现延迟

严重

DNS解析数据在分发过程中出现延迟,影响数据同步和服务一致性。

当前阈值: 连续5分钟数据无法保持一致。

3、网络连通性类告警

告警标题

告警级别

告警描述

Ping服务检查网络连通性异常

严重

通过Ping检查发现目标主机或服务不可达,可能是网络故障或服务下线。

Ping服务检查网络延迟异常

通过Ping检查发现网络延迟超过300ms,可能影响服务性能。

当前阈值: 300ms。

4、系统服务类告警

告警标题

告警级别

告警描述

容器监测数据异常

严重

容器监控数据出现异常,可能是容器运行状态问题或监控系统故障。

Syslog日志写入失败

系统日志写入失败,可能导致日志丢失,影响问题排查和审计。

告警通知服务推送失败通知

告警通知系统本身出现推送失败,可能导致重要告警无法及时通知相关人员。

5、Agent代理类告警

告警标题

告警级别

告警描述

Agent转发消息失败告警

本地Agent代理转发消息失败,可能影响数据传输和系统间通信。

当前阈值: 连续1分钟。

Agent转发消息失败严重告警

严重

本地Agent代理转发消息失败的严重级别告警,需要立即处理以避免数据丢失。

当前阈值: 连续5分钟。

6、管控类告警

告警标题

告警级别

告警描述

非管控节点存在连接Proxy风险

严重

未纳入管控的节点连接到云端代理服务,存在数据下发异常风险,需要及时处理。

管控节点未连接Proxy告警

严重

应该连接云端代理的管控节点失去连接,可能影响管控功能和数据传输。