监控告警

告警事件

  1. Dataphin Manager首页的顶部菜单栏中,单击运维看板

  2. 在左侧导航栏中选择运维看板 > 监控告警

  3. 告警事件页签下,展示当前Dataphin实例中所有已部署组件的监控告警事件。可根据state(告警事件状态)、severity(事件严重程度)和activeAt(事件触发时间)筛选目标告警事件。

    • state:可选择一个或多个告警事件的状态进行筛选,包含Inactive(已清除)、Pending(待处理)和Firing(触发中)。

    • severity:可选择一个或多个事件严重程度进行筛选,包含info(通知)、warning(告警)和error(错误)。

    • activeAt:选择告警触发的时间段,格式为YYYY-MM-DD hh:mm:ss。

告警规则

Dataphin所处网络环境具备访问公网的能力,您可联系Dataphin运维团队开通异常告警服务。服务启用后,系统异常将推送至Dataphin运维团队,确保及时响应。

告警规则页面,支持按照严重程度进行筛选,同时支持输入规则名称、规则明细的关键字进行搜索。单击告警规则操作列的image图标,可查看或复制对应告警规则的详细YAML文件。

告警规则名称

severity(事件严重程度)

说明

dataphin-biz-rules

TaskInstanceInitFailed

error

任务实例初始化失败。

LogicalTableInstanceInitFailed

warning

逻辑表实例初始化失败。

VdmMasterCounts

error

伏地魔Master节点已下线15分钟。

VdmAgentCounts

error

伏地魔Agent节点已全部下线15分钟。

SystemRetryScheduleTask

info

最近1小时内存在被兜底逻辑调度的task数。

TaskStatusInconsistent

error

tasktaskrun状态不一致。

TaskStatusRunningActuallyFinished

error

存在taskrunning,但taskrunfinished。

WaitSubmissionTaskStatus

error

处于Wait Submission状态任务数。

LogicalNodeAlwaysKilledStatus

error

处于KILLED状态的逻辑表控制节点任务数。

TooManyFailedTasks

error

最近30分钟任务运行失败率过高,失败任务数{{$value}}。

TooManyFailedTasksByHourOverYesterday

error

今日同比昨日(按小时)失败任务数过多,当前小时失败任务数{{$value}}。

TooManyFailedTasksOverYesterday

error

今日同比昨日累计失败任务数过多,今日失败任务数{{$value}}。

TooFewSuccessedTasksByHourOverYesterday

error

今日同比昨日(按小时)成功任务数(已排除业务原因)少于30%,当前小时成功任务数{{$value}}。

TooFewSuccessedTasksOverYesterday

error

今日同比昨日累计成功任务数(已排除业务原因)过少,今日成功任务数{{$value}}。

TooManyWaitRes15minsTasks

info

0-9点等待资源超过15分钟任务数大于600个。

WaitRes15minsTasks

error

Mesos未跑满,但等待资源超过15分钟任务数大于50。

RsTaskStagingStatus

error

Staging状态超过10分钟的任务数过多。

UnfinshedTaskOlderThan7Day

warning

状态未完成且超过7天的任务。

RepeatedRsTaskCounts

error

存在重复执行的RS任务。

PingPongTaskBlocked

error

系统PingPong任务调度不成功。

dataphin-jvm-rules

JvmHeapUsageTooMuch

warning

{{$labels.instance}}JVM堆内存使用率超过85%,当前使用率{{$value}}%。

JvmNonHeapUsageTooMuch

warning

{{$labels.instance}}JVM非堆内存使用率超过85%,当前使用率{{$value}}%。

JvmGCRateTooHigh

warning

{{$labels.instance}}GC频率超过1/sec,当前GC频率{{$value}},请检查应用GC状况。

JvmLiveThreadsTooMuch

warning

{{$labels.instance}}Live线程数量过多,当前数量为{{$value}},请查看Jstack信息。

JvmThreadBlocked

warning

{{$labels.instance}}存在Block状态的线程,数量为{{$value}},请查看Jstack信息。

JvmTomcatBusyThreadCountTooMuch

warning

{{$labels.instance}}Tomcat空闲线程数量过少,Busy线程数量超过最大可用线程数的90%,当前数量为{{$value}},请查看Jstack信息。

JvmCpuUsageTooHigh

warning

{{$labels.instance}}CPU使用率过高持续10分钟,当前使用率{{$value}}。

JvmResponseHighLatency

warning

{{$labels.instance}}请求响应过慢,最近十分钟平均响应时间超过5s,当前平均响应时间{{$value}}。

dataphin-system-rules

DataphinPodReplicas

warning

dataphin pod副本数为1。

DataphinPodRestartCount

warning

最近2小时pod重启次数超过2次。

coredns-rules

CoreDNSForwardLatencyHigh

warning

CoreDns域名解析过慢,DNS NameServer:{{$labels.to}},平均解析时长:{{$value}}秒。

CoreDNSResponseLatencyHigh

warning

CoreDns域名解析过慢,平均解析时长:{{$value}}秒。

kubernetes-rules

InstanceDown

warning

实例{{$labels.instance}}(job{{$labels.job}})已持续3分钟无响应。

InstanceDownCritical

error

实例{{$labels.instance}}(job{{$labels.job}})已持续10分钟无响应。

EndpointNotReady

warning

NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例,请检查服务状态。

DpEndpointNotReady

error

NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例,请检查服务状态。

SheepdogEndpointNotReady

error

NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例,请检查服务状态。

K8sNodeNotReady

error

K8s节点:{{$labels.node}}处于NotReady状态,请检查节点状态。

DpPodNotReady

warning

DataphinPod:{{$labels.pod}}处于NotReady状态,请检查容器状态。

SheepdogPodNotReady

warning

SheepdogPod:{{$labels.pod}}处于NotReady状态,请检查容器状态。

CalicoIPAllocationsHigh

warning

K8s节点:{{$labels.node}}剩余可分配IP数量不足,当前已分配IP数量超过900个,已分配数量:{{$value}}。

CalicoIPAllocationsTooHigh

error

K8s节点:{{$labels.node}}剩余可分配IP数量不足,当前已分配IP数量超过1100个,已分配数量:{{$value}}。

CalicoNodeEndpointNotReady

error

NameSpace:{{$labels.namespace}}Calico-NodeEndpoint:{{$labels.endpoint}}状态异常,请检查服务状态。

node-rules

NodeFilesystemUsage

warning

实例{{$labels.instance}}分区{{$labels.mountpoint}}磁盘{{$labels.device}}使用率大于75%,使用率已达{{$value}}%。

NodeFullFilesystemUsage

error

实例{{$labels.instance}}分区{{$labels.mountpoint}}磁盘{{$labels.device}}使用率大于80%,使用率已达{{$value}}%。

NodeMemoryUsage

warning

实例{{$labels.instance}}内存(10min)使用率大于90%,使用率(10min):{{$value}}%。

NodeCPUUsage

warning

实例{{$labels.instance}}CPU(10min)使用率大于95%,使用率:{{$value}}%。

NodeLoadUsage

warning

实例{{$labels.instance}}负载较高,最近十五分钟平均负载:{{$value}}

NodeLoadFullUsage

warning

实例{{$labels.instance}}负载过高,最近三十分钟平均负载:{{$value}}

SelinuxNotDisable

warning

实例{{$labels.instance}}Selinux未关闭。

SystemTimeError

error

集群节点之间系统时间相差过大:{{$value}}秒。

PerConnectionRepliesFull

error

实例{{$labels.instance}}每个连接的最大回复次数已满。

NodeProblemFilesystemIsReadOnly

error

实例{{$labels.instance}}文件系统只读,请立即检查。