利用genome music分析癌症样本中显著突变的基因和相关通路

MuSiC the Mutational Significance In Cancer (MuSiC) suite of tools 官网地址 http://gmt.genome.wustl.edu/packages/genome-music/index.html

功能其主要功能

  1. Apply statistical methods to identify significantly mutated genes
  2. Highlight significantly altered pathways
  3. Investigate the proximity of amino acid mutations in the same gene
  4. Search for gene-based or site-based correlations to mutations and relationships between mutations themselves
  5. Correlate mutations to clinical features, using typical correlation measures, and generalized linear models
  6. Cross-reference findings with relevant databases such as Pfam, COSMIC, and OMIM

oncotator对VCF进行注释,并生成MAF格式文件

MAF格式Mutation Annotation Format (MAF) ,是TCGA组织对突变进行注释的格式。一些和癌症分析相关的软件,经常要求MAF格式文件作为输入。而现在经过GATK或samtools检测出突变的格式一般为VCF格式,的注释软件,即使经过SNPEff和annovar注释(当然还有VEP),结果依然为VCF格式或者tab分割的文件等。

MAF中每一列是一种注释信息,由于包含的注释信息太多(详见格式),单纯的通过写脚本转换SNPEff或者annovar的注释文件,会变得非常麻烦而且考虑的问题可能不完全(有人实现过,通过Ensembl的VEP对VCF注释,然后转换,可以在github上搜索到)。

这里介绍注释软件oncotator,可以注释VCF文件,并直接生成MAF格式,相当于将VCF格式转换成MAF格式。Broad institute开发的,用起来放心哈。

Convert gtf to bed12 format --- gtf2bed

Some software requires bed12 format, not gtf/gff. So a convertion work should be done.

bedops gtf2bed

Easy way to get your result —- bedops

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
gtf2bed < Homo_sapiens.GRCh38.85.gtf ' head
1       11868   14409   ENST00000456328 0       +       11868   14409   0       3       359,109,1189,   0,744,1352,
1       12009   13670   ENST00000450305 0       +       12009   13670   0       6       48,49,85,78,154,218,    0,169,603,965,1211,1443,
1       17368   17436   ENST00000619216 0       -       17368   17436   0       1       68,     0,
1       14403   29570   ENST00000488147 0       -       14403   29570   0       11      98,34,152,159,198,136,137,147,99,154,37,        0,601,1392,2203,2454,2829,3202,3511,3864,10334,15130,
1       29553   31097   ENST00000473358 0       +       29553   31097   0       3       486,104,122,    0,1010,1422,
1       30266   31109   ENST00000469289 0       +       30266   31109   0       2       401,134,        0,709,
1       30365   30503   ENST00000607096 0       +       30365   30503   0       1       138,    0,
1       34553   36081   ENST00000417324 0       -       34553   36081   0       3       621,205,361,    0,723,1167,
1       35244   36073   ENST00000461467 0       -       35244   36073   0       2       237,353,        0,476,
1       52472   53312   ENST00000606857 0       +       52472   53312   0       1       840,    0,

Here we use UCSC’s package to convert gtf format file to bed12 format file.

Download UCSC package

1
2
3
wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred
wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/genePredToBed
chmod 755 gtfToGenePred genePredToBed

topGO包进行-GO富集分析-做有向无环图

GOdata = new(“topGOdata”, ontology = “MF”, allGenes = geneList,annot = annFUN.gene2GO, gene2GO = geneID2GO)

利用topGO进行分析,最重要的是构建topGO对象,构建topGO需要两个参数:

1,topGO需要基因和GO号的对应关系

2,基因列表,用来标记背景基因(所有基因)及差异基因

Ubuntu下安装java和多版本java共存控制

教你通过命令jdk7,jdk8就可以优雅的切换java版本

我在机器上已有java7(java1.7),目前而言java7应该是用的最广泛的,被java8取代还需要一段时间。不过我遇到最新版的picard要求java8版本,才遇到了安装新版java的问题,并且我不想删掉老版本java,我希望很方便的调用。

我查找的方法介绍,大部分都是通过update-alternatives –config java来选择,个人不喜欢这种方法。下面介绍一种比较优雅的方法,通过一个命令就能切换java版本。