GTX_FPGA 最佳实践

GTX-FPGA 介绍

GTX-FPGA产品是由未来实验室 GTX-Laboratory开发的全基因组分析加速工具,采用CPU和FPGA协同工作的异构加速技术,利用各自的特性进行基因数据的高性能计算。可以将30X的全基因组数据分析时间从30小时缩短至30分钟;将100X全外显子数据分析时间从6小时缩短至5分钟完成。

GTX-FPGA 分析主要包括:index(构建索引)、align(基因组对比)、 vc(突变检测)、wgs(整合,将align 和 vc 整合到一起,下文中的 GTX one也是指该步骤)等步骤。

本文主要介绍如果通过阿里云批量计算直接使用 GTX-FPGA 产品,实现全基因组数据分析、全外显子数据分析作业一键式运行。

使用约束

  • GTX-FPGA 产品目前只支持阿里云 F3 型 ECS 实例类型。同时每个实例类型需要配置一定容量的 SSD 数据盘,容量大小和fasta大小有关;其中 align 需要的磁盘大小是 2 个 fastq 文件大小的和再乘以 2(例如:需要计算的 fastq1 是 40G,fastq2 是 42G, 需要的数据盘空间大小是 164G);wgs需要的计算空间,以30x的WGS为例,100G的原始数据加上150G的计算结果,则需要的数据盘大小是 250G。针对人类基因组数据盘大小可以采用下文中 demo 示例的设置默认值。

  • GTX-FPGA 产品目前只支持 北京 区域测试。

  • GTX-FPGA 产品目前处于公测阶段,公测阶段 GTX-FPGA 产品不收取费用,只收取作业所需要的实例以及相关存储费用。

前置条件

  • 登录阿里云,并确保账号有足够的余额,以便体验完整分析流程。

  • 开通批量计算服务,用于执行分析任务。

  • 开通OSS对象存储, 用于上传用户自己的测序数据,保存分析结果。创建bucket,例如 gtx-wgs-demo

  • 查看或者创建AccessKey, 如果您使用的是子账号,请确认具有以上批量计算和OSS的产品使用权限,参考快速开始文档。复制AccessKey ID(如LTAI8xxxxx), Access Key Secret(如vVGZVE8qUNjxxxxxxxx)备用。

使用说明

GTX-FPGA 支持WDL模式运行以及DAG作业模式运行。

1 GTX 命令格式

gtxcmd

2 WDL模式运行

如何使用WDL 模式请参考WDL 模式使用方式

3 DAG作业模式

3.1 示例脚本

下载 DAG 作业示例代码

其中:

说明

genGtxIndexCmd 则是对应 GTX 的建索引命令;命令使用方法可以参考代码中帮助信息。genGtxWgsCmd 则是对应 GTX one的命令;命令使用方法可以参考代码中帮助信息。genGtxAlignCmd 则是对应 GTX 基因组对比命令;命令使用方法可以参考代码中帮助信息。genGtxVcCmd 则是对应 GTX 突变检测命令;命令使用方法可以参考代码中帮助信息。

  • 可以自定义以上步骤中每项 GTX 参数,也可以按默认值来执行。

  • 建索引操作是非必选项目,本 demo 示例默认索引构建完成;若需要构建索引在执行脚本时需要增加参数(isNeedIndex)描述。

  • read_group_header 可以通过命令行传入也可以使用默认值。

  • 示例代码默认运行 GTX one流程,一次性执行对比以及变异检测流程;若需要按分步骤执行则需要设置对应参数。

  • 使用 "pip install —upgrade batchcompute" 更新批量计算 python SDK 到最新版本。

3.2 执行命令

python test.py --reference oss://xxx/ref/hg19.fa --fastq1 oss://xxx/input/human30x_10m_1.fastq --fastq2 oss://xxxx/_input/human30x_10m_2.fastq --output oss://xxx/testoutput/

3.3 执行结果

gtxonegtxret