节点健康状态展示了当前节点的运行状态是否正常,它是由多个健康检查项结果汇总而成的。本文将介绍如何查看节点的健康状态和相关的健康检查项。
前提条件
已创建集群,详情请参见创建集群。
使用限制
仅适用于DataLake、Dataflow、OLAP、DataServing和Custom类型的集群。
查看最新节点健康状态
进入节点管理页面。
在顶部菜单栏处,根据实际情况选择地域和资源组。
在集群管理页面,单击目标集群所在行的节点管理。
在节点管理页面,您可以查看节点组内节点健康情况。
绿色数字:节点组内良好节点的数量。
黄色数字:节点组内存在隐患节点的数量。
红色数字:节点组内异常节点的数量。
灰色数字:节点组内未知和无状态节点的数量。
您还可以在节点管理页面,单击目标节点组的图标。在下方的健康状态列,即可查看每个节点的健康状态。
节点健康状态主要有五种类型,分别是良好、存在隐患、异常、未知和无状态。不同状态类型对应不同图标展示。
图标
健康状态
说明
良好
节点运行正常。
存在隐患
节点运行正常,但节点健康检查项检测出隐患问题,需关注处理。
异常
节点不可用,节点健康检查项检测出严重问题,请及时处理。
无状态
节点在安装流程或手动停止后不进行健康检查,无需关注。
未知
无法获取节点健康检查项结果。如排查业务无问题,无需关注。
查看节点的健康检查
在节点管理页面,单击目标节点组的图标。
单击健康状态列旁的查看检查项。
在弹出的面板中,可以查看最新健康检查结果和节点健康检查历史。
节点健康检查项说明如下表所示。
检测项名称
检测项含义
检测项阈值
检测项单位
host_memory_utilization_check
检测过去3分钟内内存平均利用率(u)。
良好:0<=u<85
存在隐患:85<=u<95
异常:95<=u<100
百分比
host_cpu_utilization_check
检测过去3分钟内CPU平均利用率(u)。
良好:0<=u<85
存在隐患:85<=u<95
异常:95<=u<100
百分比
host_cpu_load5_check
检测过去5分钟内CPU负载的平均值(u)。
良好:u<vCpu * 1.5
存在隐患:u>=vCpu * 1.5
-
host_network_transmission_check
检测过去3分钟内网络传输的丢包率(u)或错包率(u)。
良好:u<1
异常:u>=1
百分比
host_disk_space_check
检测磁盘空间使用率(u)。
良好:0<=u<90
存在隐患:90<=u<95
异常:95<=u<100
百分比
host_system_environment_check
检测重要的系统环境,例如 /etc/hostname,/etc/resolve.conf等文件,以及Java、Python的版本。
无阈值,有一个系统环境检测异常即为异常。
-
host_application_environment_check
检测节点上安装的应用的执行环境,例如安装包版本、软链、日志目录等信息。
无阈值,有一个应用环境检测异常即为异常。
-
host_user_permission_check
检测重要用户的权限,例如hadoop用户、hdfs用户等。
无阈值,有一个用户权限检测异常即为异常。
-
host_fault_compensation_check
检测是否发生故障补偿。
无阈值,有故障补偿发生即为异常。
-