内置告警规则与事件说明-智能数据建设与治理Dataphin-阿里云

告警事件

在Dataphin Manager首页的顶部菜单栏中，单击运维看板。
在左侧导航栏中选择运维看板 > 监控告警。
告警事件页签下，展示当前Dataphin实例中所有已部署组件的监控告警事件。可根据state（告警事件状态）、severity（事件严重程度）和activeAt（事件触发时间）筛选目标告警事件。
- state：可选择一个或多个告警事件的状态进行筛选，包含Inactive（已清除）、Pending（待处理）和Firing（触发中）。
- severity：可选择一个或多个事件严重程度进行筛选，包含info（通知）、warning（告警）和error（错误）。
- activeAt：选择告警触发的时间段，格式为YYYY-MM-DD hh:mm:ss。

告警规则

若Dataphin所处网络环境具备访问公网的能力，您可联系Dataphin运维团队开通异常告警服务。服务启用后，系统异常将推送至Dataphin运维团队，确保及时响应。

告警规则页面，支持按照严重程度进行筛选，同时支持输入规则名称、规则明细的关键字进行搜索。单击告警规则操作列的图标，可查看或复制对应告警规则的详细YAML文件。

告警规则名称	severity（事件严重程度）	说明
dataphin-biz-rules
TaskInstanceInitFailed	error	任务实例初始化失败。
LogicalTableInstanceInitFailed	warning	逻辑表实例初始化失败。
VdmMasterCounts	error	伏地魔Master节点已下线15分钟。
VdmAgentCounts	error	伏地魔Agent节点已全部下线15分钟。
SystemRetryScheduleTask	info	最近1小时内存在被兜底逻辑调度的task数。
TaskStatusInconsistent	error	task与taskrun状态不一致。
TaskStatusRunningActuallyFinished	error	存在task为running，但taskrun已finished。
WaitSubmissionTaskStatus	error	处于Wait Submission状态任务数。
LogicalNodeAlwaysKilledStatus	error	处于KILLED状态的逻辑表控制节点任务数。
TooManyFailedTasks	error	最近30分钟任务运行失败率过高，失败任务数{{$value}}。
TooManyFailedTasksByHourOverYesterday	error	今日同比昨日（按小时）失败任务数过多，当前小时失败任务数{{$value}}。
TooManyFailedTasksOverYesterday	error	今日同比昨日累计失败任务数过多，今日失败任务数{{$value}}。
TooFewSuccessedTasksByHourOverYesterday	error	今日同比昨日（按小时）成功任务数（已排除业务原因）少于30%，当前小时成功任务数{{$value}}。
TooFewSuccessedTasksOverYesterday	error	今日同比昨日累计成功任务数（已排除业务原因）过少，今日成功任务数{{$value}}。
TooManyWaitRes15minsTasks	info	0-9点等待资源超过15分钟任务数大于600个。
WaitRes15minsTasks	error	Mesos未跑满，但等待资源超过15分钟任务数大于50。
RsTaskStagingStatus	error	Staging状态超过10分钟的任务数过多。
UnfinshedTaskOlderThan7Day	warning	状态未完成且超过7天的任务。
RepeatedRsTaskCounts	error	存在重复执行的RS任务。
PingPongTaskBlocked	error	系统PingPong任务调度不成功。
dataphin-jvm-rules
JvmHeapUsageTooMuch	warning	{{$labels.instance}}JVM堆内存使用率超过85%，当前使用率{{$value}}%。
JvmNonHeapUsageTooMuch	warning	{{$labels.instance}}JVM非堆内存使用率超过85%，当前使用率{{$value}}%。
JvmGCRateTooHigh	warning	{{$labels.instance}}GC频率超过1/sec，当前GC频率{{$value}}，请检查应用GC状况。
JvmLiveThreadsTooMuch	warning	{{$labels.instance}}Live线程数量过多，当前数量为{{$value}}，请查看Jstack信息。
JvmThreadBlocked	warning	{{$labels.instance}}存在Block状态的线程，数量为{{$value}}，请查看Jstack信息。
JvmTomcatBusyThreadCountTooMuch	warning	{{$labels.instance}}Tomcat空闲线程数量过少，Busy线程数量超过最大可用线程数的90%，当前数量为{{$value}}，请查看Jstack信息。
JvmCpuUsageTooHigh	warning	{{$labels.instance}}CPU使用率过高持续10分钟，当前使用率{{$value}}。
JvmResponseHighLatency	warning	{{$labels.instance}}请求响应过慢，最近十分钟平均响应时间超过5s，当前平均响应时间{{$value}}。
dataphin-system-rules
DataphinPodReplicas	warning	dataphin pod副本数为1。
DataphinPodRestartCount	warning	最近2小时pod重启次数超过2次。
coredns-rules
CoreDNSForwardLatencyHigh	warning	CoreDns域名解析过慢，DNS NameServer：{{$labels.to}}，平均解析时长：{{$value}}秒。
CoreDNSResponseLatencyHigh	warning	CoreDns域名解析过慢，平均解析时长：{{$value}}秒。
kubernetes-rules
InstanceDown	warning	实例{{$labels.instance}}(job{{$labels.job}})已持续3分钟无响应。
InstanceDownCritical	error	实例{{$labels.instance}}(job{{$labels.job}})已持续10分钟无响应。
EndpointNotReady	warning	NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例，请检查服务状态。
DpEndpointNotReady	error	NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例，请检查服务状态。
SheepdogEndpointNotReady	error	NameSpace{{$labels.namespace}}Endpoint{{$labels.endpoint}}无可用的pod实例，请检查服务状态。
K8sNodeNotReady	error	K8s节点：{{$labels.node}}处于NotReady状态，请检查节点状态。
DpPodNotReady	warning	DataphinPod：{{$labels.pod}}处于NotReady状态，请检查容器状态。
SheepdogPodNotReady	warning	SheepdogPod：{{$labels.pod}}处于NotReady状态，请检查容器状态。
CalicoIPAllocationsHigh	warning	K8s节点：{{$labels.node}}剩余可分配IP数量不足，当前已分配IP数量超过900个，已分配数量：{{$value}}。
CalicoIPAllocationsTooHigh	error	K8s节点：{{$labels.node}}剩余可分配IP数量不足，当前已分配IP数量超过1100个，已分配数量：{{$value}}。
CalicoNodeEndpointNotReady	error	NameSpace：{{$labels.namespace}}Calico-NodeEndpoint：{{$labels.endpoint}}状态异常，请检查服务状态。
node-rules
NodeFilesystemUsage	warning	实例{{$labels.instance}}分区{{$labels.mountpoint}}磁盘{{$labels.device}}使用率大于75%，使用率已达{{$value}}%。
NodeFullFilesystemUsage	error	实例{{$labels.instance}}分区{{$labels.mountpoint}}磁盘{{$labels.device}}使用率大于80%，使用率已达{{$value}}%。
NodeMemoryUsage	warning	实例{{$labels.instance}}内存（10min）使用率大于90%，使用率（10min）：{{$value}}%。
NodeCPUUsage	warning	实例{{$labels.instance}}CPU（10min）使用率大于95%，使用率：{{$value}}%。
NodeLoadUsage	warning	实例{{$labels.instance}}负载较高，最近十五分钟平均负载：{{$value}}
NodeLoadFullUsage	warning	实例{{$labels.instance}}负载过高，最近三十分钟平均负载：{{$value}}
SelinuxNotDisable	warning	实例{{$labels.instance}}Selinux未关闭。
SystemTimeError	error	集群节点之间系统时间相差过大：{{$value}}秒。
PerConnectionRepliesFull	error	实例{{$labels.instance}}每个连接的最大回复次数已满。
NodeProblemFilesystemIsReadOnly	error	实例{{$labels.instance}}文件系统只读，请立即检查。