E-HPC支持集群巡检功能,可以定时检查集群运行环境,帮助您了解集群状态,及时发现集群问题。
功能介绍
集群巡检是E-HPC提供的集群运维功能,可以通过云助手在集群各节点中执行相关脚本,用于检查集群运行环境是否正常,包括检查集群各项服务、文件目录、用户权限、存储挂载和资源使用情况等。
您可以在以下场景中使用集群巡检功能:
定位问题:运行作业过程中碰到问题时,可以执行一次巡检,检查当前集群运行环境是否正常,协助定位问题。
定期检查:在日常运维中定时检查集群运行环境,以便及时发现集群异常并进行处理,避免影响作业运行。
使用限制
仅适用于Linux集群。
仅适用于云上集群,不支持混合云集群。
配置集群巡检
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,选择运维与监控>集群巡检。
在集群列表中选择目标集群,然后单击创建巡检。
在弹出的对话框中,完成巡检配置。
输入名称和描述。
选择巡检执行方式。
说明除立即执行外,其它执行方式需要设置巡检结束时间,在当前时间到结束时间之间,系统会自动按照配置的执行方式循环执行巡检。
执行方式
说明
立即执行
立即执行一次巡检。
按分钟、按小时、按天
每多少分钟、小时或天执行一次巡检,首次执行时间为当前配置时间加上时间间隔。
按周、按月
指定每周几(可多个),或者每月连续的哪几天定时执行巡检。执行时间为当天0点。
Cron表达式
根据Cron表达式定时执行巡检。关于如何配置Cron表达式,请参见Cron表达式。
选中一项或多项巡检配置。
配置类别
配置名称(巡检项)
说明
FilePermission
EHPC_CheckHomeAndUserPermission
检查home目录和用户权限是否正常。
FileExist
EHPC_CommonFileExist
检查是否存在以下EHPC集群所需的目录:
/usr/local/ehpc
/root/ehpc_secret
/usr/local/ehpc_service
/home/master_nis_ready
/opt/munge/0.5.12/etc/munge/munge.key
MountPointStatus
EHPC_MountPointStatus
检查共享存储的挂载,包括以下两部分:
/home
/opt
ServiceStatus
EHPC_ScheduleStatus
检查调度器服务。
EHPC_AccountStatus
检查域账号服务。
EHPC_ServiceStatus
检查集群服务,包括以下两部分:
/usr/local/ehpc/agent/agent.js
/usr/sbin/sshd
SystemEnvironment
EHPC_DomainName
检查域名。
EhpcInit
EHPC_DeployStatus
检查集群中EHPC服务的安装状态。
MemoryUsage
EHPC_SchedMemoryUsage
检查内存使用情况。
CpuUsage
EHPC_SchedCpuUsage
检查vCPU使用情况。
说明单击脚本,可以在弹出的对话框中查看详细的脚本内容,了解巡检过程中系统执行的具体命令。
单击确定。
配置完成后,系统将根据配置的执行方式自动执行巡检。
如果执行方式为立即执行,则立即执行一次巡检。
如果执行方式为按分钟、按小时、按天,则按设置的时间间隔循环执行。
如果执行方式为按周、按月,则在指定的日期当天0点执行。
如果执行方式为Cron表达式,则按Cron表达式的规则执行。
查看巡检结果
对于已完成的巡检,可以查看巡检结果。
在集群巡检页面,选择目标集群。
选择集群后,右侧将展示该集群已配置的巡检,对于状态为已完成的巡检,您可以查看巡检结果。
单击目标巡检ID。
查看巡检基本信息和巡检结果。
在巡检结果区域,您可以单击任一巡检项,切换查看各个检查目标的检查结果。
对于检查成功的目标,返回巡检成功。
对于检查失败的目标,可以查看失败的节点列表及其日志信息。
停止集群巡检
对于已就绪或者运行中的巡检,如果不想执行巡检,您可以停止。
在集群巡检页面,选择目标集群。
找到目标巡检,单击操作列中的停止。
在弹出的对话框中,单击确定。