云解析DNS会从系统负载、解析响应、网络连通等维度监控自建DNS集群的健康状况,您可根据业务需要配置告警,及时感知异常告警。
配置告警
为防止因本地与云控制台之间的网络中断而导致告警通知失败,设置告警后,将由自建DNS软件的本地管控代理服务负责发送告警通知。
访问告警设置-自建DNS。
填写告警通知设置、告警通知方式,点击保存提交配置。
表单项
说明
告警通知设置
告警级别
设置需要发送通知的告警级别。可选值包括:
严重级别:对应告警事件里的严重。
高级及以上级别:包括告警事件里的严重、高。
中级及以上级别:包括告警事件里的严重、高、中。
所有级别:包括告警事件里的严重、高、中、低。
重复告警通知间隔
设置重复告警的通知发送间隔。例如,选择间隔30秒通知,如果同一告警在距离上一次通知30秒内再次触发,则系统会等待间隔满30秒后再发送通知。
可选值包括:间隔30秒通知、间隔1分钟通知、间隔3分钟通知、间隔5分钟通知、间隔10分钟通知、间隔30分钟通知、间隔60分钟通知、间隔12小时通知、间隔24小时通知、不通知。
告警通知方式
邮件通知
启用后,当指定级别的告警触发通知时,系统将通过配置的SMTP服务器向联系人发送邮件。
页签切换到邮件通知(默认)。
点击切换开关,启用邮件通知。

点击邮件网关设置,配置发件邮箱的相关信息。

填入需要接收事件通知的联系人。可填写多个邮件地址,每行一个。
Webhook通知
启用后,当指定级别的告警触发通知时,系统将通过HTTP/HTTPS协议向指定的Webhook地址(例如钉钉、企业微信、飞书)发送告警信息。
页签切换到Webhook通知。
点击切换开关,启用Webhook通知。

填入钉钉、企业微信、飞书或自定义Webhooks地址。
Syslog通知
启用后,当指定级别的告警触发通知时,系统会将事件日志通过Syslog协议发送到远端的日志服务器。
页签切换到Syslog通知。
点击切换开关,启用Syslog通知。

点击Syslog网关设置,选择Syslog推送协议tcp/udp,填写syslog服务器地址。

告警列表
告警级别共4种:严重、高、中、低。分为如下6大类:
1、系统资源类告警
告警标题 | 告警级别 | 告警描述 |
CPU使用率超过60% | 中 | 系统CPU整体使用率超过60%,可能影响系统性能。 |
单核心CPU利用率超过80% | 中 | 单个CPU核心使用率超过80%,可能存在单线程性能瓶颈或负载不均衡问题。 |
内存使用率超过80% | 中 | 系统内存使用率超过80%,可能导致系统响应变慢或出现内存不足的风险。 |
磁盘IO利用率超过60% | 中 | 磁盘IO利用率超过60%,表示读写操作繁忙,可能影响系统整体性能。 |
磁盘使用超过80% | 中 | 磁盘空间使用率超过80%,可能因磁盘空间耗尽导致系统故障。 |
磁盘只读模式 | 严重 | 磁盘变为只读状态,通常由硬件故障、文件系统错误或磁盘空间耗尽引起。 |
2、DNS解析服务类告警
告警标题 | 告警级别 | 告警描述 |
DNS解析流量异常 | 严重 | DNS解析请求流量出现异常波动,可能是攻击、故障或配置问题导致。 当前阈值: 单机超8万QPS。 |
解析服务延迟上升 | 中 | DNS解析响应时间增加,影响用户体验,需要检查服务性能和网络状况。 当前阈值: 100ms。 |
解析服务成功率降低 | 中 | DNS解析成功率下降,部分解析请求失败,可能影响业务正常运行。 当前阈值: 70%。 |
解析服务QPS总量突增告警 | 严重 | DNS解析服务的每秒查询数突然大幅增加,可能是流量攻击或业务突发增长。 当前阈值:五分钟内徒增50%。 |
解析服务QPS总量突降告警 | 严重 | DNS解析服务的每秒查询数突然大幅下降,可能是服务故障或流量异常。 当前阈值:五分钟内降低50%。 |
解析数据分发出现延迟 | 严重 | DNS解析数据在分发过程中出现延迟,影响数据同步和服务一致性。 当前阈值: 连续5分钟数据无法保持一致。 |
3、网络连通性类告警
告警标题 | 告警级别 | 告警描述 |
Ping服务检查网络连通性异常 | 严重 | 通过Ping检查发现目标主机或服务不可达,可能是网络故障或服务下线。 |
Ping服务检查网络延迟异常 | 中 | 通过Ping检查发现网络延迟超过300ms,可能影响服务性能。 当前阈值: 300ms。 |
4、系统服务类告警
告警标题 | 告警级别 | 告警描述 |
容器监测数据异常 | 严重 | 容器监控数据出现异常,可能是容器运行状态问题或监控系统故障。 |
Syslog日志写入失败 | 中 | 系统日志写入失败,可能导致日志丢失,影响问题排查和审计。 |
告警通知服务推送失败通知 | 中 | 告警通知系统本身出现推送失败,可能导致重要告警无法及时通知相关人员。 |
5、Agent代理类告警
告警标题 | 告警级别 | 告警描述 |
Agent转发消息失败告警 | 中 | 本地Agent代理转发消息失败,可能影响数据传输和系统间通信。 当前阈值: 连续1分钟。 |
Agent转发消息失败严重告警 | 严重 | 本地Agent代理转发消息失败的严重级别告警,需要立即处理以避免数据丢失。 当前阈值: 连续5分钟。 |
6、管控类告警
告警标题 | 告警级别 | 告警描述 |
非管控节点存在连接Proxy风险 | 严重 | 未纳入管控的节点连接到云端代理服务,存在数据下发异常风险,需要及时处理。 |
管控节点未连接Proxy告警 | 严重 | 应该连接云端代理的管控节点失去连接,可能影响管控功能和数据传输。 |