什么是基因分析平台?

阿里云基因分析平台(Genomics Computing Platform)是用户友好的基因分析一站式平台,端到端地提供数据传输、存储管理、生物信息分析等核心能力。平台支持GA4GH社区开放标准,集成丰富的流程工具和公共数据集,帮助用户安全高效、敏捷弹性地处理任意规模基因数据。

相比于其他用户方案,基因分析平台提供完整的Serverless基因计算服务,简单易用、经济高效、灵活可靠、且超大规模。结合阿里云海量的存储计算资源、连通测序上下游的用户网络、以及数据和应用的生态合作伙伴,基因分析平台广泛用于基因组学数据从样本到报告的分析全过程,可以作为不同应用系统计算底座,全方位满足基因组学科学研究和临床应用的需要。查看更多产品优势。

产品架构

基因分析平台产品架构如下:

基因分析平台产品架构图

  • 用户基因数据安全加密的存储在自己的对象存储OSS中,仅授权给基因分析平台计算时访问。

  • 提供计算侧的文件访问缓存加速,支持计算作业直接读写OSS文件,解决并行任务的I/O和吞吐问题

  • 大规模并行计算调度,提供容器/虚拟机执行环境,支持多种异构计算,加速基因分析。

  • 工程化的流程执行引擎,支持GA4GH标准(WDL/CWL),无需迁移改造。

  • 精细的资源和权限管控的用户工作空间。

  • 包含Sentieon,GATK在内的众多开箱即用的公共应用,支持全球用户使用。

功能特性

基因分析平台具有以下主要功能特性:

  • 基因数据管理

    基因数据安全存储在用户自己的阿里云对象存储OSS中,传输和存储过程中全程加密,数据可靠性99.999999999%,并且可以通过多版本、3AZ、跨区域复制等功能提供数据容灾服务。

    平台支持用户使用OSS的多种传输工具,包括命令行,图形客户端,网页等方式,将基因数据快速传到工作空间中进行分析。

    平台提供实体表格的形式,帮助用户组织和管理基因数据。用户可以将OSS文件和生物样本关联的样本、实验等其他信息,以结构化的方式存储起来,方便检索和展示,并用于进一步的批量分析任务。

  • 生信流程开发

    基因分析平台目前主要支持GA4GH联盟下的WDL的流程语言标准,可以实现本地开发测试,在平台上用于大规模的生产分析任务。用户应用标准化、可迁移、可重复,同时支持多种执行环境。

    平台为用户生信流程提供了开发编辑环境,支持版本化管理和模块化的复用。平台提供了包括公共工具镜像、第三方商业软件、公共应用在内的WDL流程开发资源,帮忙用户简单方便的建立自己的分析应用。

  • 基因计算任务

    用户运行WDL分析应用,指定OSS输入文件和运行参数后,产生的分析任务将由平台自动执行,直至完成。平台运行任务具备智能调度、错误重试、中断恢复等流程执行管理功能,并提供计算作业执行过程中的状态查询、性能监控、日志收集等基础的开发者功能。

产品定价

使用基因分析平台时,涉及收费的资源项如下:

  • 计算资源:用户计算作业执行过程中,消耗的CPU/MEM/DISK等计算资源

  • 软件算法:用户计算作业中可能使用的第三方商业软件

更多信息,请参见计费概述

相关概念

如果您希望全面地了解关于对象存储的基础知识,例如对象存储的定义、工作原理和实际应用等,请参见什么是对象存储