标签归档:Annotation

oncotator对VCF进行注释,并生成MAF格式文件

MAF格式Mutation Annotation Format (MAF) ,是TCGA组织对突变进行注释的格式。一些和癌症分析相关的软件,经常要求MAF格式文件作为输入。而现在经过GATK或samtools检测出突变的格式一般为VCF格式,的注释软件,即使经过SNPEff和annovar注释(当然还有VEP),结果依然为VCF格式或者tab分割的文件等。

MAF中每一列是一种注释信息,由于包含的注释信息太多(详见格式),单纯的通过写脚本转换SNPEff或者annovar的注释文件,会变得非常麻烦而且考虑的问题可能不完全(有人实现过,通过Ensembl的VEP对VCF注释,然后转换,可以在github上搜索到)。

这里介绍注释软件oncotator,可以注释VCF文件,并直接生成MAF格式,相当于将VCF格式转换成MAF格式。Broad institute开发的,用起来放心哈。

首先安装python virtualenv

virtualenv可以创建一个虚拟的python环境,在虚拟环境中安装的包,不影响机器已经安装的python包。

curl -O https://pypi.python.org/packages/source/v/virtualenv/virtualenv-14.0.6.tar.gz
tar -xvzf virtualenv-14.0.6.tar.gz 
cd virtualenv-14.0.6/
python setup.py install --prefix=~/pypackages/
cd ..
rm -rf virtualenv-14.0.6*

安装oncotator依赖

git clone  https://github.com/broadinstitute/oncotator.git
cd oncotator
mkdir env
bash scripts/create_oncotator_venv.sh -e ./env

安装oncotator

source ./env/bin/activate
python setup.py install
deactivate

下载注释数据文件

wget -c http://www.broadinstitute.org/~lichtens/oncobeta/oncotator_v1_ds_Jan262015.tar.gz
tar -xvzf  oncotator_v1_ds_Jan262015.tar.gz

注释内容如下,包括基因组注释,蛋白注释,癌症突变注释等,用的基因组是GENCODE的hg19版本。
Genomic Annotations

Gene, transcript, and functional consequence annotations using GENCODE for hg19.
Reference sequence around a variant.
GC content around a variant.
Human DNA Repair Gene annotations from Wood et al.

Protein Annotations

Site-specific protein annotations from UniProt.
Functional impact predictions from dbNSFP.

Cancer Variant Annotations

Observed cancer mutation frequency annotations from COSMIC.
Cancer gene and mutation annotations from the Cancer GenCensus.
Overlapping mutations from the Cancer Cell Line Encyclopedia.
Cancer gene annotations from the Familial Cancer Database.
Cancer variant annotations from ClinVar.

Non-Cancer Variant Annotations

Common SNP annotations from dbSNP.
Variant annotations from 1000 Genomes.
Variant annotations from NHLBI GO Exome Sequencing Project (ESP).

运行oncotator

#进入虚拟环境env
source ./env/bin/activate
# WGS = whole genome sequencing, WXS = whole exome sequencing
# 通过annotate-manual设置MAF注释,比如样本barcode,样本来源等,至于氨基酸突变等,会自动进行注释
oncotator --input_format=VCF --db-dir=./oncotator_v1_ds_Jan262014 --output_format=TCGAMAF --tx-mode=EFFECT --collapse-number-annotations --annotate-default='Sequencer:Illumina HiSeq' --annotate-manual='Sequence_Source:WGS' --annotate-manual='Tumor_Sample_Barcode:Tumor'  --annotate-manual='Matched_Norm_Sample_Barcode:normal'  input.vcf output.maf hg19
deactivate

结果

继续阅读