什么是灵骏

灵骏是一种大规模高密度计算服务,全称“智能计算灵骏”,提供高性能AI训练、高性能计算所需的异构计算算力服务。灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。您只需为AI训练所消耗的资源付费,无需建设、调优和运维复杂的计算节点、存储及RDMA网络,即可使用高扩展性、高性能、高性价比的智能计算基础设施环境。

产品架构

灵骏架构图
  • 灵骏是软硬件一体化设计的算力集群服务,硬件涵盖了服务器、网络、存储以及集群的整体交付管理等,软件包括算力资源管控运维、AI加速套件、云原生任务管理,以及完善的AI开发作业平台,支持Pytorch、TensorFlow等常见AI框架。

  • 灵骏的底层硬件核心组件由磐久服务器和高性能RDMA网络两部分组成:

    • 服务器采用阿里云自研的磐久服务器,在核心配置上进行多项优化,充分保证硬件的性能释放。

    • 网络支持常见的Fat-Tree网络拓扑,支持TCP/IP和RDMA等多种通信协议。其中,灵骏25G网络和100G网络独立组网;25G网络用于服务器带内管理,100G网络的多个网卡用于AI训练业务的高效通信。为提升灵骏网络可用性,灵骏支持双上联组网,每个网卡的两个端口分别接到两个交换机上,在连接出现故障时可自动切换,保证网络可用性。

  • 软件架构自底向上包括资源管理、计算加速库、机器学习和深度学习框架、开发环境以及任务管理等多个部分。

    • 资源管理部分,灵骏通过容器技术(Docker)进行资源的划分和调度,并兼容Kubenertes(k8s)等编排工具。

    • 系统的运维和监控,采用阿里巴巴的天基系统对集群的底层资源和状态进行实时监控。

    • 支持加速库,主要对灵骏集群的通信进行了深度的定制优化。

    • 计算系统支持任务的界面化提交和任务日志查看,支持主流的AI计算框架,例如:PyTorch、TensorFlow等。

为什么选择灵骏

选择灵骏,您可以轻松构建具有以下优势的智能集群:

  • 算力即服务

    提供高性能、高弹性异构算力服务,支持万张GPU规模的资源弹性,单集群网络容量4Pbps,时延低至2微秒。

  • 高资源效率

    资源利用率提升3倍,并行计算效率90%以上。

  • 融合算力池

    支持AI+HPC场景算力的统一分配和融合调度,无缝连接。

  • 算力管理监控

    为异构算力深度定制IT运维管理平台,实现异构算力到池化资源到使用效率的全流程监控管理。

产品优势

  • 加速AI创新

    全链路性能提速,计算密集型项目迭代效率可提升2倍以上。

  • 最大化ROI

    高效的池化异构算力调度技术,确保每一份算力投入都能得到充分利用,资源利用率可提升3倍。

  • 无惧规模挑战

    轻松应对大模型和大规模工程仿真的算力需求,让创新不受算力限制。

  • 可视又可控

    简单的管理异构算力的分配,并持续的监控和优化。

产品规格与开通

  • 开通:灵骏目前处于定向公测阶段,阿里云业务人员会主动为需要购买的用户提供商品购买链接,并提供控制台管理员账号。开通后的快速试用,请参见入门概述

  • 计费:灵骏智能计算服务包含固费分期和包年包月模式。详细计费说明请参见产品计费

阿里云首页 智能计算灵骏 相关技术圈