阿里云基因计算AGS(Alibaba Cloud Genomics Service)是由阿里云推出极速、低成本、高精度的基因组测序二级分析的云服务,主要提供以容器平台为基础的生物信息工作流服务和无需搭建集群,开箱即用的加速API服务。本文介绍什么是AGS及其应用优势,以及AGS工作流和WDL工作流的特点。
ACK One工作流
AGS工作流即将下线,推荐您使用ACK One分布式工作流Argo集群。ACK One分布式工作流Argo集群,是面向批处理、数据处理、科学计算、持续集成等业务场景,提供托管开源Argo的工作流集群,可以实现大规模工作流编排与高效弹性运行,并优化运行成本。
什么是AGS
AGS主要应用于基因组测序二级分析,通过AGS加速API只需要15分钟即可完成一个30X WGS的基因比对、排序、去重、变异检测全流程,相比经典流程可加速120倍,比目前全球最快的FPGA/GPU方案仍能提速2~4倍。
通过分析个体基因序列的突变机制,可为遗传病检测、肿瘤筛查等提供有力支撑,未来将在临床医学和基因诊断方面发挥巨大作用。人类全基因组有约30亿个碱基对,一个30X的WGS测序数据量大约在100 GB。AGS在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,同时适用于DNA的SNP/INDEL以及CNV结构变异检测,以及DNA/RNA病毒检测等场景。
更多信息,请参见AGS产品详情页。
AGS的优势
极速、精准:经过实际测试,整套方案在15分钟内完成了8组30X WGS样本二级分析处理。在保证精度的前提下,实现15分钟对7200亿碱基拼装、排序、去重、变异检测,完成基因检测全流程120倍加速。且通过NA12878测试数据集与金标准VCF比较,二级分析的精度高于或等于BWA-0.7.17/GATK 4.1.3的数据产出,SNP精度到达99.80%。
数据集:30X NA12878
SNP
RECALL
PRECISION
F1
GATK 4.1版
99.86%
99.79%
99.82%
AGS版
99.86%
99.80%
99.83%
INDEL
RECALL
PRECISION
F1
GATK 4.1版
99.28%
99.70%
99.49%
AGS版
99.27%
99.68%
99.47%
成本大幅优化:阿里云ACK/AGS提供云上PaaS加速能力,以混合云方式协助华大基因完成自主测序仪大批量下机数据二级分析。同时实现二级分析计算行业内低成本,缩短交付周期95%。
适用场景广,具体表现在以下两个方面:
在保证分析通量的同时满足灵活性需求,可根据不同平台和数据定制分析流程。为各大测序服务商、研究机构等提供更简单更高效的存储、自动化分析、数据传输、项目协作以及生物信息工具开发等方面的解决方案。
AGS能够提供Kubernetes-native工作流机制,帮助用户在Kubernetes集群上运行支持DAG的工作流。在处理基因计算,数据计算等场景具有良好的通用性。
简单易用:AGS凭借云端的自动伸缩特性,实现大规模弹性调度计算。在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据(FASTQ文件)上传至OSS,以及授权Bucket给AGS服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。
AGS工作流
AGS工作流基于Argo开发,可以为Kubernetes提供容器化的本地工作流程。工作流程中的每个步骤都定义为容器。
AGS工作流是作为Kubernetes CRD(自定义资源定义)实现的。因此可以使用kubectl管理工作流,并与其他Kubernetes服务本地集成,例如Volumes、Secrets和RBAC。工作流控制器提供完整的工作流程功能,包括参数替换、存储、循环和递归工作流程。更多信息,请参见创建工作流。
WDL工作流
WDL(Workflow Description Language)是由Broad Institute开发的一种流程开发语言,简单易用,能够有效的提高生物信息工作流的构建效率。更多信息,请参见创建WDL工作流。
在ACK上运行WDL的优势
兼容社区CronwellServer,完整兼容WDL的流程定义,对遗留流程无需修改,便可以通过AGS在ACK上运行WDL流程。关于WDL的详细介绍,请参见WDL。
对Task资源申请优化,通过Pod Guarantee QoS方式,避免资源过度争取造成节点负载过高和效率下降。
与阿里云存储的无缝整合,目前支持直接访问OSS和NAS,并支持多数据源的挂载。
WDL局限性
CronwellServer在以下方面仍然落后于云原生的AGS工作流:
资源控制粒度(CPU、Mem min、Mem max)方面。
调度优化,自动重试,资源上限的动态调整。
监控、日志等方面。
在集群资源使用水位上低于AGS,在批量样本投递成功率上也低于AGS工作流。对于大批量重复性的工作流仍然建议改造成原生的AGS工作流来提升效率。更多信息,请参见创建工作流。
对于高CPU消耗的Mapping、HC、Mutecv2等流程可以使用AGS API来降低处理成本节省和加速。更多信息,请参见通过AGS处理全基因组测序WGS。
AGS客户交流群
如果您有关于AGS的更多问题和想法,欢迎使用钉钉搜索群号35485255加入钉钉交流群。
相关文档
除了上述所提及特点,AGS产品还成功解决了工作流程组装管理,海量数据存储、迁移与传输、安全合规等行业痛点问题。详情请参见以下文档。