标签归档:WDL

GATK Best Practices:通过GATK4 docker运行processing-for-variant-discovery-gatk4.wdl

Run GATK Best Practices for data pre-processing by Cromwell/WDL

与GATK4正式发布的还有WDL(workflow description langaue,https://software.broadinstitute.org/wdl/),WDL将工作流程分为了workflow, task, call, command 和 output。与以往GATK提供Best practice的PPT介绍不同,现在Broad提供的是Best practice(https://software.broadinstitute.org/gatk/best-practices/)的WDL文件。WDL文件运行通过cromwell运行,并且有json格式的参数输入文件指定WDL文件中流程所需要的参数。比如

sudo java -jar cromwell.jar run workflow.wdl --inputs workflow.inputs.json

我们只需要修改json文件中的参数就可以运行gatk4 Best Practices,而不需要自己去搭建流程,简化了工作量,也遵循了Broad提供的推荐设置和流程。本文只介绍突变检测前的序列比对和recalibrate这部分的GATK best practices,该流程生成了用于variant calling的bam文件。

1,文件准备

WDL文件和json文件
Broad在github上提供了进行突变检测call variant之前的数据处理data proceesing流程,见https://github.com/gatk-workflows/gatk4-data-processing
从github上,我们需要下载两个文件
processing-for-variant-discovery-gatk4.wdl (用于data pre-processing 的 pipeline)
processing-for-variant-discovery-gatk4.hg38.wgs.inputs.json(指定WDL的参数文件)

ubam文件:
要求ubam文件中要有RG tag,经过排序sort之后,该文件可以通过picard将fastq文件转换得到

GATK resoure bundle,从中下载GATK需要的dbsnp文件,known site等文件
ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/
https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/

2, 软件准备

下载cromwell,用于运行WDL
官网:http://cromwell.readthedocs.io/en/develop/tutorials/FiveMinuteIntro/

下载GATK docker镜像,根据json文件中的第5部分DOCKERS,还需要下载python和genomes in the cloud 镜像,pull命令中加入registry.docker-cn.com,可以指定docker从国内源中下载,避免下载速度较慢或不能下载。

sudo docker pull registry.docker-cn.com/broadinstitute/gatk:latest
sudo docker pull registry.docker-cn.com/library/python:2.7
sudo docker pull registry.docker-cn.com/broadinstitute/genomes-in-the-cloud:2.3.1-1512499786

3,修改json文件

json文件中的gs://路径下的文件是google storage cloud上面的文件,可以换成本地电脑的路径。

第一部分 SAMPLE NAME AND UNMAPPED BAMS:
该部分指定样本名和分析需要的起始ubam文件,该部分会经常修改

继续阅读