智能监控自定义WebHook

本文为您介绍在运维中心设置监控告警时,自定义WebHook的消息格式说明。

连通性测试

{
 "message":{
 "content": "DataWorks Workbench Alarm Connectivity Test"
 }
}

自定义告警

消息体

周期实例状态告警

{
 "message": {
 "title": "DataWorks_Remind",
 "remind_name": "webhookTest",
 "remind_unit": "Task"
 "occur_time": "2021-07-13 16:16:20",
 "remind_type": "uncompleted",
 "task_size": 1,
 "node_id_list": "220167523",
 "node_name_list": "nodeName",
 "node_owner_list": "123123123",
 "remind_founder": "jingyan20182222",
 "number_of_alerts": 3,
 "more_information": "http://..."
 }
} 

资源组告警

{
 "message": {
 "title": "DataWorks_Remind",
 "remind_name": "规则名",
 "remind_unit": "ScheduleResourceGroup",
 "occur_time": "2021-07-13 16:16:20",
 "remind_type": "resGroup use ratio",
 "resource_group_name": "资源组名",
 "threshold": 99,
 "duration": 30,
 "remind_founder": "jingyan20182222"
 }
}

字段含义

字段

描述

示例

title

告警标题。

DataWorks_Remind

task_size

任务数量。

1

remind_name

规则名称。

webhookTest

occur_time

发生时间。

2021-07-13 16:16:20

remind_type

触发条件。

取值如下:

  • completed:完成

  • uncompleted:未完成

  • error:出错

  • cycle uncompleted:周期未完成

  • run over time:运⾏超时

  • exhausted error:⾃动重跑仍出错

  • resGroup use ratio:资源组利用率

  • the number of waiting task in resGroup:资源组等待资源实例数

completed

node_id_list

节点ID,英文逗号分割,最多5个。

220167523

node_name_list

节点名,英文逗号分割,最多5个。

nodeName

node_owner_list

责任人列表,英文逗号分割,最多5个。

123123

remind_founder

规则创建人。

jingyan20182222

remind_unit

规则监控粒度。

取值如下:

  • Task:任务

  • Baseline:基线

  • Project:项目

  • BizProcess:业务流程

  • ScheduleResourceGroup:调度资源组

  • DiResourceGroup:数据集成资源组

Task

number_of_alerts

第几次告警。

3

more_information

DataWorks运维中心周期实例的URL。

http://XXXX

threshold

资源组监控特有,阈值。

  • remind_typeresGroup use ratio时是使用率。

  • remind_typethe number of waiting task in resGroup时是等待资源实例数量。

99

duration

资源组监控特有。持续时间,单位为分钟。

30

基线告警

消息体

{
 "message": {
 "cycle_number": 1,
 "occur_time": "2024-07-31 11:29:43",
 "baseline_owners": "dp3base",
 "baseline_name": "基线测试",
 "key_instance": 10590018690,
 "sla_time": "2024-07-30 17:30:00",
 "buffer": -1081,
 "title": "DataWorks_Baseline_Alert",
 "status": "overSla"
 }
}

字段含义

字段

描述

示例

cycle_number

周期号,天基线为1

1

occur_time

发生时间。

2024-07-31 11:29:43

baseline_owners

基线责任人。

dp3base

baseline_name

基线名。

baseline_test

key_instance

当前关键实例。

10590018690

sla_time

承诺时间。

2024-07-30 17:30:00

buffer

基线余量,单位为分钟。

-1081

title

标题(类型)。

DataWorks_Baseline_Alert

status

状态。

  • dangerous:预警

  • overSla:破线

overSla

事件告警

消息体

{
 "message": {
 "task_name": "失败任务名",
 "event_type": "ERROR",
 "task_owner_name": "dp3base",
 "occur_time": "2024-07-30 23:06:06",
 "event_name": "20240729-10000213793(⼩时失败基线)(24)-[project:lwt_test_hongkong]出错",
 "title": "DataWorks_Event_Remind"
 }
}

字段含义

字段

描述

示例

task_name

异常任务名。

失败任务

event_type

事件类型。

  • ERROR:出错

  • SLOW:变慢

ERROR

task_owner_name

任务责任人。

dp3base

occur_time

发生时间。

2024-07-30 23:06:06

event_name

事件名称,格式:

业务⽇期-节点ID(节点名)(周期ID)-[project:项⽬空间名]

20240729-10000213793(失败任务)(1)-[project:lwt_test_hongkong]出错

title

标题(类型)。

DataWorks_Event_Remind