标签归档:SNP

将VCF文件中的突变拆分成SNP和INDEL

VCFTOOLS

得到SNP

vcftools --vcf X.vcf --remove-indels --out X.snps --recode --recode-INFO-all

得到INDEL

vcftools --vcf X.vcf --keep-only-indels --out X.indel --recode --recode-INFO-all

GATK

得到SNP

java -jar GenomeAnalysisTK.jar \
    -T SelectVariants \
    -R reference.fasta \
    -V X.vcf   \
    -selectType SNP \
    -o X.snps.vcf

得到INDEL

java -jar GenomeAnalysisTK.jar \
    -T SelectVariants \
    -R reference.fasta \
    -V X.vcf  \
    -selectType INDEL \
    -o X.indel.vcf

本着有轮子不造轮子的原则,可以用VCFTOOLS和GATK来实现,当然如果想自己拆分的话,可以根据VCF中是否有SNP和INDEL的tag标签,或者根据ALT和REF中的碱基长度是否一致来实现拆分。

参考:
https://www.biostars.org/p/48204/
https://software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_tools_walkers_variantutils_SelectVariants.php

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

用Circos表示基因组上的突变密度

不光是生信,感觉整个生物领域越来越靠图吃饭了。谁的图漂亮,谁的分析就好。好吧,我也承认,图多图漂亮了,确实显得高大上哈。在我眼中图的信息量比较大,能够给人直观的表示,为了说明图的意义,我没把持住,在本文多放了几张和circos图无关的图,见谅。本文有多图,都是本人自己画的,请勿盗图,如果你想知道怎么做或者由更好的表示办法,欢迎留言讨论。

想当年,我为了表示SNP在染色体上的数目分布,用python画了24个图,每个染色体一张SNP的密度分布。那可是我第一次用matplot。

先上我年yi轻qian时做的图,那个时候我都佩服自己能想出可以用图的形式来表示突变的密度,哈哈哈,因为这样就能很直观的看出哪些地方突变频率比较高,突变频率比较高的地方,可能是突变热点区域,在肿瘤研究中常常有意义。

继续阅读