功能特性

弹性高性能计算集群

自动化创建和管理HPC集群,提供常见的HPC调度器,支持公共云部署和线下集群Cloud Busrting能力。

功能集

功能

功能描述

参考文档

集群管理

队列管理

提供集群队列功能,用于划分计算资源,调度用户作业,以及管理用户使用优先级和配额。

管理队列

用户管理

提供集群用户管理功能,内建或者接入集群用户账号系统,用于集群的认证授权和权限控制。

用户管理

软件与应用

集成操作系统、运行时依赖的数学库、通信库或开发调试工具。提供常见的行业软件与应用。

管理集群软件应用

自定义服务

安装自定义服务组件,能与集群服务联通,提供额外附加功能和使用界面,以类SaaS化方案帮助用户使用集群资源。

管理集群自定义服务

资源管理

计算资源管理

创建和释放不同规格的计算资源,安装配置计算环境和软件应用,自动加入和移除集群,支持按队列划分节点。

管理节点

存储资源管理

挂载和卸载不同类型的存储资源,包括文件存储、块存储和对象存储等。

管理集群共享存储

网络资源管理

支持计算网络、存储网络和管理网络的设置,提供集群外网访问和节点间高速互联的功能,以及安全隔离的管控要求。

配置集群

自动伸缩服务

集群以队列维度,根据作业负载自动伸缩集群大小。自动创建计算资源并加入集群,执行用户作业,并在完成后自动释放。

配置自动伸缩

作业调度

作业管理

使用集群提供的调度服务,创建和提交大规模的作业,使用CPU、GPU或容器等集群资源完成计算任务,支持队列和优先级。

告警通知

提供内置指标或自定义指标的告警服务,支持短信、钉钉等多渠道通知用户。

配置告警通知

监控告警

运行监控

提供集群、资源、作业的运行监控服务,按队列、用户、项目等维度展示集群服务状态,资源使用效率以及作业执行情况的可视化图表。

查看E-HPC的监控信息

日志审计

日志审计

为所有集群关键活动,如创建和释放节点提供详细的日志功能,帮助集群IT管理员或用户进行故障定位和安全审计。

查看E-HPC的操作日志