配置集群巡检

E-HPC支持集群巡检功能,可以定时检查集群运行环境,帮助您了解集群状态,及时发现集群问题。

功能介绍

集群巡检是E-HPC提供的集群运维功能,可以通过云助手在集群各节点中执行相关脚本,用于检查集群运行环境是否正常,包括检查集群各项服务、文件目录、用户权限、存储挂载和资源使用情况等。

您可以在以下场景中使用集群巡检功能:

  • 定位问题:运行作业过程中碰到问题时,可以执行一次巡检,检查当前集群运行环境是否正常,协助定位问题。

  • 定期检查:在日常运维中定时检查集群运行环境,以便及时发现集群异常并进行处理,避免影响作业运行。

使用限制

  • 仅适用于Linux集群。

  • 仅适用于云上集群,不支持混合云集群。

配置集群巡检

  1. 登录弹性高性能计算控制台

  2. 在顶部菜单栏左上角处,选择地域。

  3. 在左侧导航栏,选择运维与监控>集群巡检

  4. 在集群列表中选择目标集群,然后单击创建巡检

  5. 在弹出的对话框中,完成巡检配置。

    1. 输入名称和描述。

    2. 选择巡检执行方式。

      说明

      除立即执行外,其它执行方式需要设置巡检结束时间,在当前时间到结束时间之间,系统会自动按照配置的执行方式循环执行巡检。

      执行方式

      说明

      立即执行

      立即执行一次巡检。

      按分钟、按小时、按天

      每多少分钟、小时或天执行一次巡检,首次执行时间为当前配置时间加上时间间隔。

      按周、按月

      指定每周几(可多个),或者每月连续的哪几天定时执行巡检。执行时间为当天0点。

      Cron表达式

      根据Cron表达式定时执行巡检。关于如何配置Cron表达式,请参见Cron表达式

    3. 选中一项或多项巡检配置。

      配置类别

      配置名称(巡检项)

      说明

      FilePermission

      EHPC_CheckHomeAndUserPermission

      检查home目录和用户权限是否正常。

      FileExist

      EHPC_CommonFileExist

      检查是否存在以下EHPC集群所需的目录:

      • /usr/local/ehpc

      • /root/ehpc_secret

      • /usr/local/ehpc_service

      • /home/master_nis_ready

      • /opt/munge/0.5.12/etc/munge/munge.key

      MountPointStatus

      EHPC_MountPointStatus

      检查共享存储的挂载,包括以下两部分:

      • /home

      • /opt

      ServiceStatus

      EHPC_ScheduleStatus

      检查调度器服务。

      EHPC_AccountStatus

      检查域账号服务。

      EHPC_ServiceStatus

      检查集群服务,包括以下两部分:

      • /usr/local/ehpc/agent/agent.js

      • /usr/sbin/sshd

      SystemEnvironment

      EHPC_DomainName

      检查域名。

      EhpcInit

      EHPC_DeployStatus

      检查集群中EHPC服务的安装状态。

      MemoryUsage

      EHPC_SchedMemoryUsage

      检查内存使用情况。

      CpuUsage

      EHPC_SchedCpuUsage

      检查vCPU使用情况。

      说明

      单击脚本,可以在弹出的对话框中查看详细的脚本内容,了解巡检过程中系统执行的具体命令。

  6. 单击确定

    配置完成后,系统将根据配置的执行方式自动执行巡检。

    • 如果执行方式为立即执行,则立即执行一次巡检。

    • 如果执行方式为按分钟、按小时、按天,则按设置的时间间隔循环执行。

    • 如果执行方式为按周、按月,则在指定的日期当天0点执行。

    • 如果执行方式为Cron表达式,则按Cron表达式的规则执行。

查看巡检结果

对于已完成的巡检,可以查看巡检结果。

  1. 集群巡检页面,选择目标集群。

    选择集群后,右侧将展示该集群已配置的巡检,对于状态为已完成的巡检,您可以查看巡检结果。

    巡检列表
  2. 单击目标巡检ID。

  3. 查看巡检基本信息和巡检结果。

    巡检详情

    巡检结果区域,您可以单击任一巡检项,切换查看各个检查目标的检查结果。

    • 对于检查成功的目标,返回巡检成功。

      巡检成功
    • 对于检查失败的目标,可以查看失败的节点列表及其日志信息。

      巡检失败

停止集群巡检

对于已就绪或者运行中的巡检,如果不想执行巡检,您可以停止。

  1. 集群巡检页面,选择目标集群。

  2. 找到目标巡检,单击操作列中的停止

  3. 在弹出的对话框中,单击确定