告警监控

本文为您介绍告警监控的相关问题。

1、告警推送提示http connection error

告警推送类似http connection error, url=https://oapi.dingtalk.com/robot/send?

access_token=b125*********12e8,params=null, httpMethod=POST.报错。一般情况下,这是由于用户环境与对接的钉钉机器人等消息渠道可能存在网络限制问题。

建议您先登录到nightwatch服务的Pod,在其中使用pingcurl命令检测相关地址的连通性。如果存在异常,建议您先对网络状况进行排查。如果网络连通性正常,但仍然无法发送消息,日志中会出现**** is invalid, please check it的提示,这表明消息被nightwatch异常拦截,建议您将Dataphin升级至V5.1.2.04或以上版本。

2、版本升级后,所有离线任务监控记录为空。

建议您先联系Dataphin运维团队,确认数据库地址是否发生变化或是否切换至其他数据库,并考虑将其切换回旧数据库。

3、邮件测试发送中,部分租户能够正常发送,部分租户则发送失败。

请检查能够正常发送的租户与发送失败的租户的邮件配置是否一致,特别注意端口号的设置。

相关文档:自定义消息渠道支持的元数据消息渠道

4、告警监控配置为出错告警,但是任务失败后未触发告警。

出错告警规则:任务级任务运⾏过程中出错后,即触发告警。逻辑表中的任⼀字段出错,都将触发告警。

Dataphin将自动重试执行任务,直至重试次数耗尽。如果任务执行仍然出现错误,系统将触发告警。如果任务失败的原因是超时,则不会触发错误告警。

5、飞书机器人的通知内容以HTML格式显示

Dataphin V5.2.1版本起,已对来自飞书机器人和企业微信机器人的消息渠道发送的内容进行了格式处理,将不再展示HTML内容格式。建议您将Dataphin版本升级至V5.2.1或更高版本。

6、告警推送内容变量部分会被替换成数组形式

自定义消息渠道请求参数配置中的Body部分,如果某个变量的值填写了告警模板中的内容,则对于此类变量,在推送替换为实际值时,将被填充为数组。

Dataphin V5.2.1版本起,当实际值仅为一个数值时,在推送替换为实际值时,将以字符串形式填充,而非数组形式。

7、实时任务告警推送自定义消息渠道时,接收到多条告警。

在实时任务告警中,若选择了自定义接收人,并将接收方式设置为自定义消息渠道,并进行了多次保存编辑,则可能会偶尔出现保存多条重复的告警渠道ID,从而导致该渠道接收到多次推送。

Dataphin V5.2.1版本起,相关问题已得到修复。如您的Dataphin版本低于V5.2.1,建议您删除该告警配置,并重新进行创建,或将Dataphin版本升级至V5.2.1或更高版本。

8、接收到租户资源质量⽤量消息通知,此通知的推送逻辑和推送账号选择是怎样的?

当租户资源消耗超过80%时,Dataphin将自动发送消息至租户管理员。

9、收到基线预警/破线通知,但任务并未出现延迟。

破线告警规则:破线预警的计算每分钟更新一次,基于当前任务及其下游任务的数量、每个任务的预估执行时间,推算出任务执行完成的时间。如果任务链路上的执行时间超出了基线配置的破线时间,则会发出破线告警,该告警属于提前预警,而非事后告警。基线预警和基线破线均属于此类告警。