本文将为您介绍服务器突然终止服务且重启失败的原因和解决方法。

问题描述

服务器使用了一段时间,突然终止服务,重启无效果或重启失败。

问题原因和解决方法

出现该问题的原因及相应的解决方法如下:
  • 不同账户启动过Agent,导致目录权限不一致。
    确认方法如下:
    1. 登录ECS,切换至root账号。
    2. 执行命令ps -ef | grep zoo | grep -v cdp
    如果返回两个进程,则说明是该原因导致,解决方法如下:
    1. 登录ECS,对上述ps出的两个进程执行kill -9
    2. 执行命令chown admin:admin /home/admin/ -R
    3. 执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart,重启Agent。
  • 句柄数被过多占用。
    确认方法如下:
    • 登录ECS,执行命令grep "temporarily unavailable" /home/admin/alisatasknode/logs/alisatasknode.log。如果有结果返回,则说明有问题。
    • 重启Agent失败,报错为Caused by: java.io.IOException: error=11, Resource temporarily unavailable
    如果确认是该原因导致的问题,请根据下述方法解决:
    1. 切换至root账号下,执行命令ps -ef | grep zoo | grep -v cdp
    2. 对上述ps出的进程全部执行kill -9命令。
    3. 执行命令chown admin:admin /home/admin/ -R
    4. 执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart,重启Agent。
  • 专有网络的ECS的UUID发生变化。
    1. 登录ECS,执行命令dmidecode | grep UUID,确认返回的UUID是否全部为小写字母(假设原来是大写)。
    2. 将返回的结果和资源组列表 > 自定义资源组页面服务器管理对话框中的结果进行对比。

    如果确认是该原因导致的问题,请在自定义资源组页面删除原来大写UUID的服务器,重新添加小写UUID的服务器。

说明 如果出现服务器无法删除,报错remove node failed, exception: [3006:ERROR_GATEWAY_EXIST_TASKS]:gateway tasks not empty的情况,请记录服务器所在区域,并复制报错内容,提交工单进行咨询。