本文将为您介绍添加自定义调度资源服务器失败的原因和解决方法。

问题描述

添加自定义调度资源服务器失败,服务状态一直显示为停止停止

问题原因和解决方法

出现该问题可能有以下原因:
  • 界面注册的机器名称和实际的机器名称不一致。
    确认方法如下:
    • 经典网络下(仅华东2支持),需要确保填写的主机名称和IP是在ECS上执行命令hostnamehostname -i返回的名称和IP。
      说明 请注意是否修改过主机名称,如果修改过主机名称,请进入/etc/hosts查看是否绑定对应的host,确认绑定后,使用绑定的hosts到界面注册使用。
    • 专有网络下,需要确保填写的是在ECS上执行命令dmidecode | grep UUID返回的值。
      说明
      • 如果没有安装dmidecode,请首先进行安装。
      • 不同版本的dmidecode返回的UUID区分大小写
      • 机器名称也区分大小写。

    如果确认是该原因导致的问题,请根据下述方法解决:

    1. 删除原来注册的服务器。
    2. 填写正确的主机名称(UUID)和IP,重新注册服务器。
  • 初始化命令使用错误。
    确认方法如下:
    1. 登录ECS执行下述命令。
      cat /home/admin/alisatasknode/target/alisatasknode/conf/config.properties | grep driver
    2. 登录DataWorks控制台,进入资源组列表 > 自定义资源组页面,单击相应资源组后的服务器初始化服务器初始化
    3. 对照ECS执行的命令结果和服务器初始化窗口显示的username是否一致。

    如果确认是该原因导致的问题,请根据页面正确的初始化语句,重新进行初始化即可解决。

    说明
    • 在界面注册好服务器后,您可以在资源组列表 > 自定义资源组页面进行服务器初始化操作。;不同资源组的初始化命令是不一样的,且不可互相使用;专有网络的机器用了经典网络的初始化语句去执行等。
    • 请务必完全复制服务器初始化对话框中的命令,并按照顺序执行。
    • 专有网络的机器需要执行经典网络的初始化语句。
  • 时间与北京时间相差5分钟以上。
    确认方法如下:
    1. 登录ECS。
    2. 执行命令date,查看返回的时间是否与北京时间相差5分钟以上。

    如果确认是该原因导致的问题,请在非业务影响的情况下,同步ECS时间至北京时间时区。

  • 目录权限点有误。
    确认方法如下:
    1. 登录ECS,执行命令ps -ef | grep zoo | grep -v cdp
    2. 确认返回一个进程的是否是admin账号。

      如果是admin账号,请继续确认/home/admin/alisatasknode的目录及子目录下是否都是admin权限。

    如果有root权限,请根据下述操作进行修复:

    1. 切换至root账号下,执行chown admin:admin /home/admin -R
    2. 切换至admin账号下,执行命令/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart重启Agent。
  • 执行install.sh时便报错。
    确认方法如下:
    1. 执行命令install.sh
    2. 查看/home/admin/alisatasknode/logs下是否有日志文件生成。如果没有,则说明没有安装成功。
    如果确认是该原因导致的问题,解决方法如下:
    1. 确认当前ECS的OS是否是CentOS5、CentOS6或CentOS7版本。如果不是,请切换为该类版本并重新初始化。
    2. 执行命令执行/opt/taobao/java/bin/java -V,确认JDK版本是否返回1.8版本。
    3. 执行命令ls -al /opt/taobao,确认该目录权限是否为admin。如果不是,请执行chown admin:admin /opt/taobao -R,并重新执行初始化语句。

如果以上均不是导致该问题的原因,请进入资源组列表 > 调度资源组页面,单击相应资源组后的服务器管理,将管理服务器对话框截图。

打包该截图、调度资源的名称、服务器的名称和ECS上的/home/admin/alisataksnode/logs,提交工单进行咨询。