文档

阿里云超算异构Spot集群,助力深势科技30%成本驱动MDaaS海量算力

更新时间:
一键部署

本文主要介绍 “AI for Science”先行者深势科技是如何实现低成本在阿里云上构建微尺度科学计算云平台超算集群。

生命科学

客户简介

公司名称:深势科技

公司网址:https://www.dp.tech

公司介绍:

深势科技成立于2018年,是“AI for Science”科学研究范式的先行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

深势科技是国家高新技术企业、北京市“专精特新”中小企业,总部位于有“中国硅谷”之称的北京市中关村地区,具有约2000平米的科研办公场地以及1500平米的生物实验室,同时在上海、深圳、海口等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了近百名数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中博士及博士后的比例超过了35%。核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。

深势科技深耕“AI for Science”领域,创新性地融合了跨尺度建模、高效采样、高性能计算等技术,在保持量子力学精度准确性的基础上,将分子动力学的计算速度提升了数个数量级,从而解决药物和材料的微观计算模拟难题。深势科技推出的Hermite™药物计算设计平台、Bohrium微尺度科学计算云平台以及Lebesgue高性能任务调度与算力编排平台等微尺度工业设计基础设施,颠覆了现有研发范式,打造"计算指导实验、实验反馈设计"的全新范式,为药物、材料领域带来极具突破性的计算模拟及设计工具。

业务痛点

  1. 深势科技的业务量波动较大,希望可以提供基于作业负载的弹性伸缩能力,最大化利用计算资源;

  2. 深势科技可以有效调度集群的计算资源,希望提供跨可用区的多规格实例弹性扩容,并且支持不同实例规格使用不同的镜像;

  3. 集群的作业量很大,所以深势科技希望可以提供作业粒度的费用账单便于计费;

  4. 深势科技作为一家初创企业,追求高性价比,以较低成本完成有效计算。

为什么选择阿里云?

主要是丰富的产品与灵活的售卖模式。

阿里云是国内少有提供云上弹性高性能计算平台(EHPC)的云厂商,阿里云EHPC集群的自动伸缩功能,超越传统超算的“静态”资源分配,用户可根据负载实现按需扩容缩容。通过用户自定义设置,有效提升作业的吞吐量,加快作业处理速度,极大提升集群的利用率。

植根于阿里云自动运维与可视化管控技术,E-HPC提供集群管理、作业管理、用户管理和可视化等功能,帮助用户轻松使用云上HPC集群。阿里云后台实现对集群的主动运维、热升级与迁移,让HPC客户专注于应用与科研本身,无需费时费力于集群管理与运维,更加便捷地使用超算带来的便利。

同时基于费用中心的账单,EHPC提供开源计费工具,支持作业粒度的费用统计,高效解决计费需求。同时阿里云的抢占式实例提供了低成本的算力资源,价格最低达到按量付费的一折。

解决方案

架构图

方案细节:

深势科技通过阿里云弹性高性能计算的平台,调度下层多种算力资源。在选择算力资源时,深势科技多选用了具有低成本优势的抢占式实例,同时通过阿里云弹性供应解决方案,深势科技可以一次性获取所需的算力资源,无需关注底层实例。

由于客户需求多跟着项目周期走,深势科技的业务有不稳定的周期性,阿里云弹性高性能计算平台(EHPC)的自动伸缩功能,利用云上的弹性,根据作业负载自动管理计算资源,深势科技不需要自行管理资源规模,有助于深势科技降低运维成本。

深势科技需要计算每个用户、作业所用资源费用,帮助统计成本;阿里云EHPC的作业详情导出功能,可以查看每个作业的资源使用量。同时开发费用统计工具,结合费用中心账单可以统计每个作业的计算费用。

阿里云弹性供应组是一个使用抢占式实例和按量付费实例快速部署实例集群的方案,支持一键部署跨计费方式、跨可用区、跨实例规格族的实例集群,可以稳定提供计算力,在享受缓解抢占式实例的回收机制带来的不稳定因素,免去重复手动创建实例的繁琐操作。

因此,使用弹性供应的成本最优策略来调度抢占式实例资源,指定多个可用区和实例规格,确保以最优价格完成spot+按量计算资源的交付。按秒计费,价格最低至1折。

客户效益

1、满足了客户低成本构建高可用算力集群的需求:30%成本实现海量算力交付:深势科技利用弹性供应的成本优化策略,结合spot实例的价格巡检,以30%的成本完成日均3w+ vCPU资源的交付。

2、EHPC自动运维的易用特性,降低了深势科技的运维成本,提升了集群管理效率。

客户证言

分子模拟为我们提供了认识世界的重要工具,而具体实现这一过程一方面需要优质的算法,另一方面需要海量的计算资源。深势科技采用的“AI for Science”的研发范式,在算法层面取得了重大突破;而在资源层面,我们要感谢阿里云的弹性高性能计算服务在较低成本的基础上提供了海量的计算资源。接下来,深势科技将会同阿里云更进一步紧密合作,将Hermite™药物计算设计平台、Bohrium微尺度科学计算云平台以及Lebesgue高性能任务调度与算力编排平台等SaaS化的微尺度工业设计基础设施推及更多有需求的朋友们。——深势科技创始人兼CEO孙伟杰

选用产品

弹性高性能计算E-HPC

弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供一站式公共云HPC/AI平台服务,面向科研,生产,教育和行业大计算,提供快捷,弹性,安全和与阿里云产品互通的云超算平台。

更多关于弹性高性能计算E-HPC的介绍,请参见弹性高性能计算E-HPC产品详情页

云服务器ECS

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页。

抢占式实例

抢占式实例是云服务器ECS一种特殊的实例,相对于按量付费实例价格有一定的折扣,其价格以小时为周期根据供需情况不同而变化,最低可至按量付费的一折,旨在为用户降低部分场景下使用ECS实例的成本。

更多关于抢占式实例的介绍,参见抢占式实例文档页

GPU 云服务器

提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于GPU云服务器的介绍,参见GPU云服务器产品页面。

弹性供应

弹性供应是一个使用抢占式实例和按量付费实例快速部署实例集群的方案,支持一键部署跨计费方式、跨可用区、跨实例规格族的实例集群。您可以通过弹性供应组稳定提供计算力,缓解抢占式实例的回收机制带来的不稳定因素,免去重复手动创建实例的繁琐操作。

更多关于弹性供应的介绍,参见弹性供应文档页

  • 本页导读
文档反馈