全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
批量计算

GATK支持

更新时间:2017-10-11 12:56:50

GATK软件分析流程由阿里云和Broad Institute合作提供。Broad Institute提供的GATK流程最佳实践用工作流定义语言(WDL)编写,通过批量计算集成的Cromwell工作流引擎解析执行。用户将为作业运行时实际消耗的计算和存储资源付费,不需要支付资源之外的附加费用。

Broad Institute GATK网站和论坛为GATK工具和WDL提供了更完整的背景信息,文档和支持。

如果需要执行用WDL编写的通用工作流程,请参考使用App中—3. 对 cromwell 工作流引擎和 WDL 的支持

* 目前GATK和WDL支持功能在邀测中,如果需要测试,请提工单咨询。

1. 准备

(1) 使用 OSS 存储

要在批量计算上运行GATK,输入输出文件都需要保存在OSS上。所以您需要先开通OSS并且创建好Bucket。注意:创建的Bucket所在区域,需要和打算批量计算运行GATK的区域一致。

(2) 安装 batchcompute-cli 命令行工具

  1. pip install batchcompute-cli

安装完成后,还需要配置。

具体配置参考这里

2. GATK 示例

运行这个命令,生成示例代码:

  1. bcs gen ./demo -t gatk

这个命令将生成以下目录结构:

  1. demo
  2. |____main.sh
  3. |____Readme.md
  4. |____src
  5. | |____PublicPairedSingleSampleWf.inputs.json
  6. | |____PublicPairedSingleSampleWf.md
  7. | |____PublicPairedSingleSampleWf.options.json
  8. | |____PublicPairedSingleSampleWf.wdl

运行GATK示例GATK示例使用人类参考基因组的构建38来处理全基因组测序数据。输入文件是未比对的BAM格式。对于这个例子,我们将使用NA12878中的公开数据,这些数据的存储由阿里云免费提供。

现在从您的终端运行示例:

  1. bcs asub cromwell gatk-job\
  2. --input_from_file_WDL src/PublicPairedSingleSampleWf.wdl\
  3. --input_from_file_WORKFLOW_INPUTS src/PublicPairedSingleSampleWf.inputs.json\
  4. --input_from_file_WORKFLOW_OPTIONS src/PublicPairedSingleSampleWf.options.json\
  5. --input_WORKING_DIR oss://luogc-shenzhen/gatkdemo/worker_dir/\
  6. --output_OUTPUTS_DIR oss://luogc-shenzhen/gatkdemo/output

这个命令已经在main.sh中写好,您也可以只运行:

  1. sh main.sh

如果看到以下信息,说明提交成功

  1. Job created: job-0000000059DC658400006822000001E3

job-0000000059DC658400006822000001E3 即是当次提交作业的ID。

查看作业状态:

  1. bcs j # 获取作业列表
  2. bcs j job-0000000059DC658400006822000001E3 # 查看作业详情

查看作业日志:

  1. bcs log job-0000000059DC658400006822000001E3

验证结果:

要查看工作空间中的过程数据信息:

  1. bcs o ls oss://my_bucket/my_key/worker_dir/

查看所有输出文件:

  1. bcs o ls oss://my_bucket/my_key/outputs/

您现在已经在批量计算上运行Broad Institute GATK。

本文导读目录