物联网边缘计算的主机管理页面为您提供了主机健康诊断功能,可以对主机的系统配置、系统运行状态、系统软件运行状态、主机网络状态、主机历史运行状态进行全方位的诊断,帮助您了解主机的健康状态,及时发现并解决常见的问题。
使用限制
仅主机节点为EDGEBOX节点或融合节点,且带k8s底座的主机支持主机健康诊断功能。
操作步骤
登录边缘计算控制台。
从左侧导航栏中的下拉框,选择您的实例。
在左侧导航栏选择节点管理 > 主机管理。
在目标主机右侧操作列中单击主机详情。
在主机详情页中,单击健康诊断页签,并单击开始诊断。
对主机的系统配置、系统运行状态、系统软件运行状态、主机网络状态、主机历史运行状态五个方面进行检查,大约耗时2分钟。
说明如果您的主机底座k8s-launcher版本不存在,则界面显示立即升级,请按照界面指引进行升级后再进行健康诊断。
诊断完成后,单击查看报告查看诊断结果,并根据提示诊断结果和建议进行问题修复。
系统配置诊断
诊断项 | 说明 |
内核参数检测 | 内核参数推荐值如下:
可根据需要使用命令对参数进行调整。 命令示例:将net.ipv4.conf.all.arp_announce设置为2。
|
SELinux检测 | 检查SELinux是否已禁用。 如果SELinux没有禁用,可执行如下命令进行禁用。
|
Swap分区关闭检测 | 检查Swap分区是否已关闭。 如果Swap分区没有关闭,可执行如下命令进行关闭。
|
CPU工作模式检测 | CPU是否已设置为高性能模式(interactive)。 |
IPv6 DNS检测 | 检查 如果存在,可手动编辑此文件进行修复。 |
系统运行状态诊断
诊断项 | 诊断结果 | 修复方案 |
CPU Load检查 | 系统负载过高 | Load值越高,说明任务队列越长,处于等待执行的任务越多。可通过 您可通过如下方法进行排查:
|
CPU温度检查 | CPU温度过高 | 请确认如下问题:
若不存在上述问题,可能是风扇转速过慢或者其他硬件问题导致。 |
内存使用率诊断 | 内存或CPU使用率过高 | 如果主机的内存或CPU持续保持高使用率,会对系统稳定性和业务运行造成影响。以Linux系统为例,您可以按如下方法进行处理。 在Linux系统中,可以使用vmstat、top、ps -aux、ps -ef等常用命令查看系统进程,下面介绍使用top命令找到导致内存或CPU使用率过高的进程。
|
CPU使用率诊断 | ||
磁盘使用率检测 | 磁盘空间使用率过高 | 使用命令 从长远的角度需分析大文件产生的原因并进行优化,或者对磁盘进行扩容。导致磁盘使用率过高常见的原因有:没有设置日志回滚策略或者设置不合理,历史文件没有及时进行清理等,这些问题都会导致磁盘使用率持续上涨,当上涨到某个阈值时,会导致系统或应用程序运行异常。 |
磁盘Inode使用率检测 | 磁盘Inode使用率过高 | 系统存在过多小文件导致,需要及时对小文件进行清理,否则会有无法正常创建文件的风险。
|
Pid和Threads使用率情况检测 | Pid和Threads达到上限 | 系统当前的进程数达到系统允许创建的最大限制。若出现此问题,会导致系统进程无法正常创建。 |
文件系统读写检测 | 文件无法正常读写 | 您可以尝试在主机上创建文件,如果出现
如果不存在上述问题,可能是磁盘或文件系统损坏导致。 |
僵尸进程检测 | 出现僵尸进程 | 如下命令可以查看当前系统存在的僵尸进程:
僵尸进程无法终止,也无法自行退出,只能通过恢复其依赖的资源或重启系统来解决。如果选择重启系统来解决僵尸进程,请先确保重启系统对业务无影响。 |
主机网络状态诊断
诊断结果 | 修复方案 |
网络不通 | 排查思路如下:
图示如下: |
IP冲突 | 在检测出IP地址冲突的主机上,使用
|
存在DHCP搜索域注入 | 查看宿主机文件 您可以尝试如下步骤解决:
|
主机软件运行状态诊断
诊断结果 | 修复方案 |
系统服务未运行 | 为了确保一体机能够正常提供服务,需要以下几个系统服务正常运行: kubelet、docker、containerd、LinkIoTEdge、NetworkManager、sshd、dbus 您可以通过如下命令查询系统服务的运行状态,若未正常运行,可手动将服务启动。
|
防火墙被打开 | 可使用以下命令将防火墙关闭并禁用。
|
docker hang | 若发现docker无响应,可尝试通过执行 |
容器存在存储泄露 | 开源软件已知问题。可执行如下脚本进行对无用的容器存储层进行清理。 说明 如果不清理会占用额外的磁盘空间,在磁盘使用率不高时不会影响系统运行,您可根据实际情况决定是否进行清理。
|