告警事件
在Dataphin Manager首页的顶部菜单栏中,单击运维看板。
在左侧导航栏中选择运维看板 > 监控告警。
告警事件页签下,展示当前Dataphin实例中所有已部署组件的监控告警事件。可根据state(告警事件状态)、severity(事件严重程度)和activeAt(事件触发时间)筛选目标告警事件。
state:可选择一个或多个告警事件的状态进行筛选,包含Inactive(已清除)、Pending(待处理)和Firing(触发中)。
severity:可选择一个或多个事件严重程度进行筛选,包含info(通知)、warning(告警)和error(错误)。
activeAt:选择告警触发的时间段,格式为YYYY-MM-DD hh:mm:ss。
告警规则
若Dataphin所处网络环境具备访问公网的能力,您可联系Dataphin运维团队开通异常告警服务。服务启用后,系统异常将推送至Dataphin运维团队,确保及时响应。
告警规则页面,支持按照严重程度进行筛选,同时支持输入规则名称、规则明细的关键字进行搜索。单击告警规则操作列的
图标,可查看或复制对应告警规则的详细YAML文件。
告警规则名称 | severity(事件严重程度) | 说明 |
dataphin-biz-rules | ||
TaskInstanceInitFailed | error | 任务实例初始化失败。 |
LogicalTableInstanceInitFailed | warning | 逻辑表实例初始化失败。 |
VdmMasterCounts | error | 伏地魔Master节点已下线15分钟。 |
VdmAgentCounts | error | 伏地魔Agent节点已全部下线15分钟。 |
SystemRetryScheduleTask | info | 最近1小时内存在被兜底逻辑调度的task数。 |
TaskStatusInconsistent | error | task与taskrun状态不一致。 |
TaskStatusRunningActuallyFinished | error | 存在task为running,但taskrun已finished。 |
WaitSubmissionTaskStatus | error | 处于Wait Submission状态任务数。 |
LogicalNodeAlwaysKilledStatus | error | 处于KILLED状态的逻辑表控制节点任务数。 |
TooManyFailedTasks | error | 最近30分钟任务运行失败率过高,失败任务数{{$value}}。 |
TooManyFailedTasksByHourOverYesterday | error | 今日同比昨日(按小时)失败任务数过多,当前小时失败任务数{{$value}}。 |
TooManyFailedTasksOverYesterday | error | 今日同比昨日累计失败任务数过多,今日失败任务数{{$value}}。 |
TooFewSuccessedTasksByHourOverYesterday | error | 今日同比昨日(按小时)成功任务数(已排除业务原因)少于30%,当前小时成功任务数{{$value}}。 |
TooFewSuccessedTasksOverYesterday | error | 今日同比昨日累计成功任务数(已排除业务原因)过少,今日成功任务数{{$value}}。 |
TooManyWaitRes15minsTasks | info | 0-9点等待资源超过15分钟任务数大于600个。 |
WaitRes15minsTasks | error | Mesos未跑满,但等待资源超过15分钟任务数大于50。 |
RsTaskStagingStatus | error | Staging状态超过10分钟的任务数过多。 |
UnfinshedTaskOlderThan7Day | warning | 状态未完成且超过7天的任务。 |
RepeatedRsTaskCounts | error | 存在重复执行的RS任务。 |
PingPongTaskBlocked | error | 系统PingPong任务调度不成功。 |
dataphin-jvm-rules | ||
JvmHeapUsageTooMuch | warning | {{$labels.instance}}JVM堆内存使用率超过85%,当前使用率{{$value}}%。 |
JvmNonHeapUsageTooMuch | warning | {{$labels.instance}}JVM非堆内存使用率超过85%,当前使用率{{$value}}%。 |
JvmGCRateTooHigh | warning | {{$labels.instance}}GC频率超过1/sec,当前GC频率{{$value}},请检查应用GC状况。 |
JvmLiveThreadsTooMuch | warning | {{$labels.instance}}Live线程数量过多,当前数量为{{$value}},请查看Jstack信息。 |
JvmThreadBlocked | warning | {{$labels.instance}}存在Block状态的线程,数量为{{$value}},请查看Jstack信息。 |
JvmTomcatBusyThreadCountTooMuch | warning | {{$labels.instance}}Tomcat空闲线程数量过少,Busy线程数量超过最大可用线程数的90%,当前数量为{{$value}},请查看Jstack信息。 |
JvmCpuUsageTooHigh | warning | {{$labels.instance}}CPU使用率过高持续10分钟,当前使用率{{$value}}。 |
JvmResponseHighLatency | warning | {{$labels.instance}}请求响应过慢,最近十分钟平均响应时间超过5s,当前平均响应时间{{$value}}。 |
dataphin-system-rules | ||
DataphinPodReplicas | warning | dataphin pod副本数为1。 |
DataphinPodRestartCount | warning | 最近2小时pod重启次数超过2次。 |
coredns-rules | ||
CoreDNSForwardLatencyHigh | warning | CoreDns域名解析过慢,DNS NameServer:{{$labels.to}},平均解析时长:{{$value}}秒。 |
CoreDNSResponseLatencyHigh | warning | CoreDns域名解析过慢,平均解析时长:{{$value}}秒。 |
kubernetes-rules | ||
InstanceDown | warning | 实例{{$labels.instance}}(job{{$labels.job}})已持续3分钟无响应。 |
InstanceDownCritical | error | 实例{{$labels.instance}}(job{{$labels.job}})已持续10分钟无响应。 |
EndpointNotReady | warning | NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例,请检查服务状态。 |
DpEndpointNotReady | error | NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例,请检查服务状态。 |
SheepdogEndpointNotReady | error | NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例,请检查服务状态。 |
K8sNodeNotReady | error | K8s节点:{{$labels.node}}处于NotReady状态,请检查节点状态。 |
DpPodNotReady | warning | DataphinPod:{{$labels.pod}}处于NotReady状态,请检查容器状态。 |
SheepdogPodNotReady | warning | SheepdogPod:{{$labels.pod}}处于NotReady状态,请检查容器状态。 |
CalicoIPAllocationsHigh | warning | K8s节点:{{$labels.node}}剩余可分配IP数量不足,当前已分配IP数量超过900个,已分配数量:{{$value}}。 |
CalicoIPAllocationsTooHigh | error | K8s节点:{{$labels.node}}剩余可分配IP数量不足,当前已分配IP数量超过1100个,已分配数量:{{$value}}。 |
CalicoNodeEndpointNotReady | error | NameSpace:{{$labels.namespace}}Calico-NodeEndpoint:{{$labels.endpoint}}状态异常,请检查服务状态。 |
node-rules | ||
NodeFilesystemUsage | warning | 实例{{$labels.instance}}分区{{$labels.mountpoint}}磁盘{{$labels.device}}使用率大于75%,使用率已达{{$value}}%。 |
NodeFullFilesystemUsage | error | 实例{{$labels.instance}}分区{{$labels.mountpoint}}磁盘{{$labels.device}}使用率大于80%,使用率已达{{$value}}%。 |
NodeMemoryUsage | warning | 实例{{$labels.instance}}内存(10min)使用率大于90%,使用率(10min):{{$value}}%。 |
NodeCPUUsage | warning | 实例{{$labels.instance}}CPU(10min)使用率大于95%,使用率:{{$value}}%。 |
NodeLoadUsage | warning | 实例{{$labels.instance}}负载较高,最近十五分钟平均负载:{{$value}} |
NodeLoadFullUsage | warning | 实例{{$labels.instance}}负载过高,最近三十分钟平均负载:{{$value}} |
SelinuxNotDisable | warning | 实例{{$labels.instance}}Selinux未关闭。 |
SystemTimeError | error | 集群节点之间系统时间相差过大:{{$value}}秒。 |
PerConnectionRepliesFull | error | 实例{{$labels.instance}}每个连接的最大回复次数已满。 |
NodeProblemFilesystemIsReadOnly | error | 实例{{$labels.instance}}文件系统只读,请立即检查。 |