自定义消息渠道支持的元数据

本文为您介绍自定义消息渠道支持的元数据。

前提条件

已配置消息渠道。如何配置,请参见消息渠道

背景信息

  • 自定义消息渠道的接口中包含基础的元数据信息,在Proxy应用中,进行告警消息的升级及告警消息内容的拼接。

  • 若自定义消息渠道的接口中包含元数据信息不足以满足需求,可通过OpenAPI获取更多的信息。

通用元数据

参数名称

数据类型

描述

receiver_phone

String

消息接收人电话号码。例如:1361234****。

receiver_userid

String

消息接收人Dataphin系统内部的用户ID,是Dataphin系统内部的唯一识别ID。例如:1234567。

receiver_sourceuserid

String

消息接收人用户的来源系统的ID,与认证对接的系统相关,如RAM、ASCM及基于SSO SDK的客户自有认证系统的来源用户ID。例如:username@dataphin。

receiver_email

String

接收人邮件地址。例如:username@***.com。

receiver_message

String

Dataphin系统预制的接收人接收到信息。例如:任务 ods_order 因任务出错触发告警,从属项目ods_dataphin。

message_type

String

支持的消息类型,包含:

  • LOGICAL_INSTANCE_ALARM:实例未生成告警。

  • BATCH_PROCESS_ALARM:离线任务告警。

  • REALTIME_PROCESS_ALARM:实时任务告警。

  • STREAM_PIPELINE_ALARM:实时集成告警。

  • BASELINE_ALARM:基线告警。

  • DATA_QUALITY_ALARM:质量监控告警。

  • DATA_SERVICE_ALARM:数据服务告警。

  • PERMISSION_NOTICE:权限通知。

  • TENANT_NOTICE:租户通知。

message_metadata

JSON

可通过JSON解析器查看数据。

实例未生成告警(LOGICAL_INSTANCE_ALARM

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

LOGICAL_INSTANCE_GENERATION:逻辑实例生成监控。

离线任务告警(BATCH_PROCESS_ALARM)

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

  • VDM_BATCH_ERROR:任务出错。

  • VDM_BATCH_FINISH:任务完成。

  • VDM_BATCH_TIME_OUT:任务运行超时。

  • VDM_BATCH_UNDONE:任务未完成。

instance_id

String

触发告警的任务实例ID。

instance_url

String

告警实例URL。

bizdate

String

任务实例业务日期(日、周、月调度),小时任务也仅支持业务日期。

node_id

String

任务ID。

node_name

String

任务名称。

project_id

String

任务所属项目ID。

project_name

String

任务所属项目名称。

node_owner

String

任务负责人。

notify_time

String

触发报警时间。

monitor_owner

String

监控规则创建人。

cur_value

Number

任务已运行时间,仅在运行超时监控类型下时使用。

threshhold

List<String>

  • 运行超时:预期任务运行的最长时间。

  • 未完成:预期完成的时间点。

receivers

String

告警的接收人名称信息,具体格式为:接收人展示名称1(接收人登录账号关联Id1),接收人展示名称2(接收人登录账号关联Id2)。

实时任务告警(REALTIME_PROCESS_ALARM)

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

  • STREAM_BIZ_DELAY:业务延迟过高。

  • STREAM_DATA_RETENTION:数据滞留超过配置。

  • STREAM_MORE_THAN_FAILURE:失败频率超过配置。

  • STREAM_TPS_OUT_RANGE:TPS超过范围。

  • STREAM_CHECKPOINT_FAILURE:checkpoint失败超过配置。

  • STREAM_BACKPRESSURE:反压持续时间超过配置。

alert_period

String

指标检测频率,单位为秒。

threshold

List<Number>

告警配置的阈值,不同的告警原因的值不同:

  • 业务延时过高:(value),单位为秒。

  • TPS超过范围:(min,max)。

  • 失败率超过配置:(value)。

  • 数据滞留超过配置:(value),单位为秒。

  • checkpoit失败超过配置:(value)。

condition

String

判断条件。包括:

  • great than:大于。

  • between:介于(大于等于取值1,小于等于取值2)。

cur_value

String

当前值。

instance_url

String

告警实例URL。

node_name

String

任务名称。

project_id

String

任务所属项目ID。

project_name

String

任务所属项目名称。

node_owner

String

任务负责人。

notify_time

String

触发报警时间。

monitor_owner

String

监控规则创建人。

receivers

String

告警的接收人名称信息,具体格式为:接收人展示名称1(接收人登录账号关联Id1),接收人展示名称2(接收人登录账号关联Id2)。

实时集成任务告警(STREAM_PIPELINE_ALARM)

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

  • STREAM_BIZ_DELAY:业务延迟过高。

  • STREAM_MORE_THAN_FAILURE:失败频率超过配置。

alert_period

String

指标检测频率,单位为秒。

threshold

List<Number>

告警配置的阈值,不同的告警原因的值不同:

  • 业务延时过高:(value),单位为秒。

  • 失败率超过配置:(value)。

condition

String

判断条件。gt:大于。

cur_value

String

当前值。

instance_url

String

告警实例URL。

node_name

String

任务名称。

project_id

String

任务所属项目ID。

project_name

String

任务所属项目名称。

node_owner

String

任务负责人。

receivers

String

告警的接收人名称信息,具体格式为:接收人展示名称1(接收人登录账号关联Id1),接收人展示名称2(接收人登录账号关联Id2)。

基线告警(BASELINE_ALARM)

参数名称

数据类型

描述

events

List(Event)

基线告警的告警事件。

receivers

String

告警的接收人名称信息,具体格式为:接收人展示名称1(接收人登录账号关联Id1),接收人展示名称2(接收人登录账号关联Id2)。

Event

若合并告警,则每个告警消息为一个事件。若不合并,仅包含一个事件。

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

  • KGB_TASK_ERROR:基线任务出错。

  • KGB_TASK_SLOW_DOWN:基线任务变慢。

  • KGB_EARLY_WARNING:基线预警。

  • KGB_BROKEN_LINE:基线破线。

baseline_instance_id

String

告警基线实例ID。

baseline_instance_url

String

告警基线实例URL。

baseline_bizdate

String

基线实例业务日期(日、周调度)或业务时间(小时、分钟调度)。

baseline_id

String

基线ID。

baseline_name

String

基线名称。

baseline_owner

String

基线负责人。

node_instance_id

String

触发告警的任务实例ID,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

node_instance_url

String

告警任务实例URL,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

node_id

String

告警任务ID,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

node_name

String

告警任务名称,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

project_id

String

告警任务所属项目ID,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

project_name

String

告警任务所属项目名称,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

node_owner

String

告警任务负责人,仅基线事件告警时(基线任务出错、基线任务变慢)提供。

baseline_priority

String

基线优先级。

baseline_allowance

String

基线余量。

current_key_node_instance_id

String

当前导致基线告警的任务实例ID,仅基线告警(基线预警、基线破线)提供。

current_key_node_name

String

当前导致基线告警的任务名称,仅基线告警(基线预警、基线破线)提供。

current_key_node_id

String

当前导致基线告警的任务ID,仅基线告警(基线预警、基线破线)提供。

current_key_node_owner

String

当前导致基线告警的任务负责人,仅基线告警(基线预警、基线破线)提供。

current_key_node_project_name

String

当前导致基线告警的任务所属项目名称,仅基线告警(基线预警、基线破线)提供。

current_key_node_instance_url

String

当前导致基线告警的任务实例URL,仅基线告警(基线预警、基线破线)提供。

baseline_num

Number

影响基线条数。

数据质量告警(DATA_QUALITY_ALARM)

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

  • DQE_COLUMN:字段规则异常。

  • DQE_DATA_SOURCE:数据源规则异常。

  • DQE_CUSTOMIZE:自定义规则异常。

  • DQE_TABLE:表规则异常。

  • DQE_REALTIME_TABLE:实时表规则异常。

  • DQE_INDEX:指标规则异常。

object_id

String

告警的对象。格式为:

  • Dataphin逻辑表:板块名.逻辑表名。

  • Dataphin物理表:项目名.表名。

  • Dataphin实时元表:项目名.表名。

  • 全域数据表:数据源ID.表名(仅表名)。

  • 指标:板块名.逻辑表名.指标名。

  • 数据源-连通性:数据源ID。

  • 数据源-表结构异动:数据源ID.表名。

rule_name

String

规则名称。

rule_level

String

规则强度。

rule_type

String

模板名称。

notify_time

String

触发报警时间。

project_name

String

项目名。

detail_object_id

String

监控对象的详细对象:

  • 字段规则异常:代表字段名称。

  • 数据源规则异常:代表表名称。

receivers

String

告警的接收人名称信息,具体格式为:接收人展示名称1(接收人登录账号关联Id1),接收人展示名称2(接收人登录账号关联Id2)。

quality_index

String

质量校验的配置值和实际校验值,如校验配置:'正常行数 >= 100 and 异常率 < 10%';实际指标:'正常行数 = 100 and 异常行数 = 11%'。

示例:校验配置:'正常行数 >= 100 and 异常率 < 10%';实际指标:'正常行数 = 100 and 异常行数 = 11%'。

quality_index_kv

String

规则校验的关键指标,如总行数:100,正常行数:80,异常行数:20,正常率:80%,异常率:20%。

示例:总行数:100;正常行数:80;异常行数:20;正常率:80%;异常率:20%。

其他类型的按照校验值和对比值展示,如:分区数:100;7天前分区数:100。

说明

仅展示配置的关键指标,不展示过程数据。

数据服务告警(DATA_SERVICE_ALARM)

参数名称

数据类型

描述

event_id

String

告警事件ID。

reason

String

告警原因:

  • OS_AVG_RESPONSE:平均响应时间异常。

  • OS_CALL_TIMES:调用次数异常。

  • OS_ERROR_RATE:错误率异常。

  • OS_OFFLINE:Offline百分比异常。

api_id

String

API ID。

api_name

String

API名称。

statisticall_period

String

监控指标统计周期,单位为秒。

alert_period

String

指标检测频率,单位为秒。

threshhold

List<Number>

告警配置的阈值,不同的告警原因的值不同:

  • 调用次数:value。

  • 错误率:value。

  • 平均响应时间:value,单位为秒。

condition

String

判断条件。包括:

  • great than:大于。

  • between:介于。

  • less than:小于。

  • great than equal:大于或等于。

  • less than equal:小于或等于。

  • equal:等于。

cur_value

String

当前值。

receivers

String

告警的接收人名称信息,具体格式为:接收人展示名称1(接收人登录账号关联Id1),接收人展示名称2(接收人登录账号关联Id2)。