弹性高性能计算集群
自动化创建和管理HPC集群,提供常见的HPC调度器,支持公共云部署和线下集群Cloud Busrting能力。
功能集 |
功能 |
功能描述 |
参考文档 |
集群管理 |
队列管理 |
提供集群队列功能,用于划分计算资源,调度用户作业,以及管理用户使用优先级和配额。 |
管理队列 |
用户管理 |
提供集群用户管理功能,内建或者接入集群用户账号系统,用于集群的认证授权和权限控制。 |
用户管理 | |
软件与应用 |
集成操作系统、运行时依赖的数学库、通信库或开发调试工具。提供常见的行业软件与应用。 |
管理集群软件应用 | |
自定义服务 |
安装自定义服务组件,能与集群服务联通,提供额外附加功能和使用界面,以类SaaS化方案帮助用户使用集群资源。 |
管理集群自定义服务 | |
资源管理 |
计算资源管理 |
创建和释放不同规格的计算资源,安装配置计算环境和软件应用,自动加入和移除集群,支持按队列划分节点。 |
管理节点 |
存储资源管理 |
挂载和卸载不同类型的存储资源,包括文件存储、块存储和对象存储等。 |
管理集群共享存储 | |
网络资源管理 |
支持计算网络、存储网络和管理网络的设置,提供集群外网访问和节点间高速互联的功能,以及安全隔离的管控要求。 |
配置集群 | |
自动伸缩服务 |
集群以队列维度,根据作业负载自动伸缩集群大小。自动创建计算资源并加入集群,执行用户作业,并在完成后自动释放。 |
配置自动伸缩 | |
作业调度 |
作业管理 |
使用集群提供的调度服务,创建和提交大规模的作业,使用CPU、GPU或容器等集群资源完成计算任务,支持队列和优先级。 |
|
告警通知 |
提供内置指标或自定义指标的告警服务,支持短信、钉钉等多渠道通知用户。 |
配置告警通知 | |
监控告警 |
运行监控 |
提供集群、资源、作业的运行监控服务,按队列、用户、项目等维度展示集群服务状态,资源使用效率以及作业执行情况的可视化图表。 |
查看E-HPC的监控信息 |
日志审计 |
日志审计 |
为所有集群关键活动,如创建和释放节点提供详细的日志功能,帮助集群IT管理员或用户进行故障定位和安全审计。 |
查看E-HPC的操作日志 |
该文章对您有帮助吗?