阿里云超算异构Spot集群,助力深势科技30%成本驱动MDaaS海量算力

更新时间:2020-11-17 16:39:02

本文主要介绍药物研发算法科技公司深势科技是如何实现低成本在阿里云上构建分子模拟MDaaS (Molecular Dynamics as a Service)超算集群。

生命科学

客户简介

公司名称:深势科技

公司网址:http://dptech.deepmd.net/

公司介绍:

深势科技是一家成立于2018年的药物研发算法科技公司,致力于运用新一代分子模拟MDaaS (Molecular Dynamics as a Service)技术解决药物研发难题,实现药物分子的理性发现和设计。

企业的主要产品Hermite 药物研发套件,旨在帮助用户在第一性原理精度力场基础上,实现高通量药物筛选与优化;DP-Cloudserver软件,旨在帮助用户更便捷创建基于深度学习的原子间势能和力场模型和运行分子动力学模型,有效解决分子模拟中的准确性和效率性难以兼顾的问题。

公司由中科院院士领衔,核心团队来自北京大学、普林斯顿大学、上海药物研究所等高校和科研机构,在机器学习、第一性原理建模、RiD高效采样、生成算法、力场开发等方面有着深厚的技术积累,在小分子药物设计和大分子药物设计领域有着丰富的项目经验。

公司已在力场开发、小分子药物筛选与优化、药物ADMET性质预测、结合自由能微扰、多肽药物设计等领域提出更加高效和准确的解决方案,并与诸多来自学界和工业界的客户开展合作。目前已经获得来自知名投资机构的近2000万元天使投资。

业务痛点

  1. 深势科技的业务量波动较大,希望可以提供基于作业负载的弹性伸缩能力,最大化利用计算资源;

  2. 深势科技可以有效调度集群的计算资源,希望提供跨可用区的多规格实例弹性扩容,并且支持不同实例规格使用不同的镜像;

  3. 集群的作业量很大,所以深势科技希望可以提供作业粒度的费用账单便于计费;

  4. 深势科技作为一家初创企业,追求高性价比,以较低成本完成有效计算。

为什么选择阿里云?

主要是领先的产品与灵活的售卖模式。

阿里云是国内少有提供云上弹性高性能计算平台(EHPC)的云厂商,阿里云EHPC集群的自动伸缩功能,超越传统超算的“静态”资源分配,用户可根据负载实现按需扩容缩容。通过用户自定义设置,有效提升作业的吞吐量,加快作业处理速度,极大提升集群的利用率。

植根于阿里云自动运维与可视化管控技术,E-HPC提供集群管理、作业管理、用户管理和可视化等功能,帮助用户轻松使用云上HPC集群。阿里云后台实现对集群的主动运维、热升级与迁移,让HPC客户专注于应用与科研本身,无需费时费力于集群管理与运维,更加便捷地使用超算带来的便利。

同时基于费用中心的账单,EHPC提供开源计费工具,支持作业粒度的费用统计,高效解决计费需求。同时阿里云的抢占式实例提供了低成本的算力资源,价格最低达到按量付费的一折。

解决方案

架构图

方案细节:

深势科技通过阿里云弹性高性能计算的平台,调度下层多种算力资源。在选择算力资源时,深势科技多选用了具有低成本优势的抢占式实例,同时通过阿里云弹性供应解决方案,深势科技可以一次性获取所需的算力资源,无需关注底层实例。

由于客户需求多跟着项目周期走,深势科技的业务有不稳定的周期性,阿里云弹性高性能计算平台(EHPC)的自动伸缩功能,利用云上的弹性,根据作业负载自动管理计算资源,深势科技不需要自行管理资源规模,有助于深势科技降低运维成本。

深势科技需要计算每个用户、作业所用资源费用,帮助统计成本;阿里云EHPC的作业详情导出功能,可以查看每个作业的资源使用量。同时开发费用统计工具,结合费用中心账单可以统计每个作业的计算费用。

阿里云弹性供应组是一个使用抢占式实例和按量付费实例快速部署实例集群的方案,支持一键部署跨计费方式、跨可用区、跨实例规格族的实例集群,可以稳定提供计算力,在享受缓解抢占式实例的回收机制带来的不稳定因素,免去重复手动创建实例的繁琐操作。

因此,使用弹性供应的成本最优策略来调度抢占式实例资源,指定多个可用区和实例规格,确保以最优价格完成spot+按量计算资源的交付。按秒计费,价格最低至1折。

客户效益

1、满足了客户低成本构建高可用算力集群的需求:30%成本实现海量算力交付:深势科技利用弹性供应的成本优化策略,结合spot实例的价格巡检,以30%的成本完成日均3w+ vCPU资源的交付。

2、EHPC自动运维的易用特性,降低了深势科技的运维成本,提升了集群管理效率。

客户证言

分子模拟为我们提供了认识世界的重要工具,而具体实现这一过程一方面需要优质的算法,另一方面需要海量的计算资源。深势科技采用的“AI+物理建模+HPC”的研发范式,在算法层面取得了重大突破;而在资源层面,我们要感谢阿里云的弹性高性能计算服务在较低成本的基础上提供了海量的计算资源。接下来,深势科技会与阿里云进一步紧密合作,将“AI+物理建模+HPC+云计算”的MDaaS模式推及更多有需求的朋友们。——深势科技CEO孙伟杰

选用产品

弹性高性能计算E-HPC

弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供一站式公共云HPC/AI平台服务,面向科研,生产,教育和行业大计算,提供快捷,弹性,安全和与阿里云产品互通的云超算平台。

更多关于弹性高性能计算E-HPC的介绍,请参见弹性高性能计算E-HPC产品详情页

云服务器ECS

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页。

抢占式实例

抢占式实例是云服务器ECS一种特殊的实例,相对于按量付费实例价格有一定的折扣,其价格以小时为周期根据供需情况不同而变化,最低可至按量付费的一折,旨在为用户降低部分场景下使用ECS实例的成本。

更多关于抢占式实例的介绍,参见抢占式实例文档页

GPU 云服务器

提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。

更多关于GPU云服务器的介绍,参见GPU云服务器产品页面。

弹性供应

弹性供应是一个使用抢占式实例和按量付费实例快速部署实例集群的方案,支持一键部署跨计费方式、跨可用区、跨实例规格族的实例集群。您可以通过弹性供应组稳定提供计算力,缓解抢占式实例的回收机制带来的不稳定因素,免去重复手动创建实例的繁琐操作。

更多关于弹性供应的介绍,参见弹性供应文档页