GATK Best Practices:通过GATK4 docker运行processing-for-variant-discovery-gatk4.wdl
Run GATK Best Practices for data pre-processing by Cromwell/WDL
与GATK4正式发布的还有WDL(workflow description langaue,https://software.broadinstitute.org/wdl/),WDL将工作流程分为了workflow, task, call, command 和 output。
与以往GATK提供Best practice的PPT介绍不同,现在Broad提供的是Best practice(https://software.broadinstitute.org/gatk/best-practices/)的WDL文件。WDL文件运行通过cromwell运行,并且有json格式的参数输入文件指定WDL文件中流程所需要的参数。比如
sudo java -jar cromwell.jar run workflow.wdl --inputs workflow.inputs.json
我们只需要修改json文件中的参数就可以运行gatk4 Best Practices,而不需要自己去搭建流程,简化了工作量,也遵循了Broad提供的推荐设置和流程。本文只介绍突变检测前的序列比对和recalibrate这部分的GATK best practices,该流程生成了用于variant calling的bam文件。
1,文件准备
WDL文件和json文件 Broad在github上提供了进行突变检测call variant之前的数据处理data proceesing流程,见https://github.com/gatk-workflows/gatk4-data-processing 从github上,我们需要下载两个文件 processing-for-variant-discovery-gatk4.wdl (用于data pre-processing 的 pipeline) processing-for-variant-discovery-gatk4.hg38.wgs.inputs.json(指定WDL的参数文件)
ubam文件: 要求ubam文件中要有RG tag,经过排序sort之后,该文件可以通过picard将fastq文件转换得到
GATK resoure bundle,从中下载GATK需要的dbsnp文件,known site等文件 ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/ https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/