标签归档:GATK

GATK Best Practices:通过GATK4 docker运行processing-for-variant-discovery-gatk4.wdl

Run GATK Best Practices for data pre-processing by Cromwell/WDL

与GATK4正式发布的还有WDL(workflow description langaue,https://software.broadinstitute.org/wdl/),WDL将工作流程分为了workflow, task, call, command 和 output。与以往GATK提供Best practice的PPT介绍不同,现在Broad提供的是Best practice(https://software.broadinstitute.org/gatk/best-practices/)的WDL文件。WDL文件运行通过cromwell运行,并且有json格式的参数输入文件指定WDL文件中流程所需要的参数。比如

sudo java -jar cromwell.jar run workflow.wdl --inputs workflow.inputs.json

我们只需要修改json文件中的参数就可以运行gatk4 Best Practices,而不需要自己去搭建流程,简化了工作量,也遵循了Broad提供的推荐设置和流程。本文只介绍突变检测前的序列比对和recalibrate这部分的GATK best practices,该流程生成了用于variant calling的bam文件。

1,文件准备

WDL文件和json文件
Broad在github上提供了进行突变检测call variant之前的数据处理data proceesing流程,见https://github.com/gatk-workflows/gatk4-data-processing
从github上,我们需要下载两个文件
processing-for-variant-discovery-gatk4.wdl (用于data pre-processing 的 pipeline)
processing-for-variant-discovery-gatk4.hg38.wgs.inputs.json(指定WDL的参数文件)

ubam文件:
要求ubam文件中要有RG tag,经过排序sort之后,该文件可以通过picard将fastq文件转换得到

GATK resoure bundle,从中下载GATK需要的dbsnp文件,known site等文件
ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/
https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/

2, 软件准备

下载cromwell,用于运行WDL
官网:http://cromwell.readthedocs.io/en/develop/tutorials/FiveMinuteIntro/

下载GATK docker镜像,根据json文件中的第5部分DOCKERS,还需要下载python和genomes in the cloud 镜像,pull命令中加入registry.docker-cn.com,可以指定docker从国内源中下载,避免下载速度较慢或不能下载。

sudo docker pull registry.docker-cn.com/broadinstitute/gatk:latest
sudo docker pull registry.docker-cn.com/library/python:2.7
sudo docker pull registry.docker-cn.com/broadinstitute/genomes-in-the-cloud:2.3.1-1512499786

3,修改json文件

json文件中的gs://路径下的文件是google storage cloud上面的文件,可以换成本地电脑的路径。

第一部分 SAMPLE NAME AND UNMAPPED BAMS:
该部分指定样本名和分析需要的起始ubam文件,该部分会经常修改

继续阅读

2018-01-09 GATK 4.0 正式发布

https://software.broadinstitute.org/gatk/img/pipeline_overview.png
GATK4正式版已经发布,快去体验啦。GATK4在上一年提出开源,并放出beta版本,现在终于姗姗来迟。

GATK4是业界第一次涵盖了胚细胞和体细胞基因型分析中的主要突变类型的基因组分析工具,且已经开源。新版本的GATK为了解决性能瓶颈近乎完全重构,提高了速度和扩展性有不失其过往的准确度。

GATK4包含了备受大家喜爱的pipeline和新工具,汲取了机器学习和神经网络算法的优点。

GATK早期版本关注检测胚细胞短突变(germline short variant),新版本将体细胞短突变(somatic short variant)检测工具Mutect2也整合在内,Mutect2整合广泛使用的算法Mutect和GATK卓越的胚细胞突变检测算法HaplotypeCaller。除了短突变检测外,GATK4增加了检测胚细胞和体细胞拷贝数变异的流程,增加了基于体细胞等位拷贝数(somatic allelic CNV (ACNV))的肿瘤异质性评估。这些流程经过重构,无缝用于gene panel、外显子到全基因组的测序数据。

GATK4同时包含了早期可以使用现在依然在开发的结构变异(structural variant)检测,胚细胞拷贝数变异CNV检测使用了机器学习的方法,基于卷积神经网络(Convolutional Neural Networks,CNN)的胚细胞短突变过滤方法。

GATK4对性能、灵活性、速度、扩展性进行了广泛优化,并包含了可以在本地或者云设备上可以运行的点对点流程(Best practice)。

该版本得益于Broad研究所大规模运行基因组分析流程的科学和业务专家,来自业界Intel, Google Cloud, Cloudera, Microsoft Genmics, IBM Research, Amazon Web Services and Alibaba Cloud的工程师,都为GATK4的的开发做出来贡献。

2017成立的Intel-Broad基因组数据工程中心,Broad研究所的人员与Intel协同合作,对关键流程步骤做出了巨大优化。特别是Intel显著优化了基于GVCF的胚细胞joint-calling流程的扩展性,使得Broad团队可以在2个星期内完成15,000个全基因组样本的变异分析工作,而GATK3要处理3,000个全基因组样本需要至少6个星期。

https://software.broadinstitute.org/gatk/gatk4

https://github.com/broadinstitute/gatk

http://jandan.net/2017/05/31/gatk4-open.html

http://www.eeboard.com/news/gatk4/

http://ju.outofmemory.cn/entry/324861

https://gatkforums.broadinstitute.org/gatk/discussion/10502/gatk-4-0-will-be-released-jan-9-2018#latest