[转载]蛋白质组学及蛋白质鉴定常用的网站和数据库

PS:我不经常用蛋白质数据库,不过看到这个总结的挺详细的,就转过来了。

一、蛋白质数据库


1.UniProt (The Universal Protein Resource)

网址:http://www.uniprot.org/ http://www.ebi.ac.uk/uniprot/ 简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

Axel - Linux下多线程下载工具

在linux环境下,用wget下载大文件,实在是件痛苦的事情,下载速度慢。这非常的不科学,于是找到了axel这个工具,可以实现在linux下多线程下载。并且可以实现断点续传。 Axel项目网站 https://wilmer.gaa.st/main.php/axel.html

安装

1
2
3
4
5
6
wget -c https://wilmer.gaa.st/downloads/axel-1.0b.tar.gz
tar zxvf axel-1.0b.tar.gz
cd axel-1.0b/
./configure
make
make instal

或者

apt-get install axel 参数 -n 指定线程数 -o 指定另存为目录 -s 指定每秒的最大比特数 -q 静默模式

利用genome music分析癌症样本中显著突变的基因和相关通路

MuSiC the Mutational Significance In Cancer (MuSiC) suite of tools 官网地址 http://gmt.genome.wustl.edu/packages/genome-music/index.html

功能其主要功能

  1. Apply statistical methods to identify significantly mutated genes
  2. Highlight significantly altered pathways
  3. Investigate the proximity of amino acid mutations in the same gene
  4. Search for gene-based or site-based correlations to mutations and relationships between mutations themselves
  5. Correlate mutations to clinical features, using typical correlation measures, and generalized linear models
  6. Cross-reference findings with relevant databases such as Pfam, COSMIC, and OMIM

oncotator对VCF进行注释,并生成MAF格式文件

MAF格式Mutation Annotation Format (MAF) ,是TCGA组织对突变进行注释的格式。一些和癌症分析相关的软件,经常要求MAF格式文件作为输入。而现在经过GATK或samtools检测出突变的格式一般为VCF格式,的注释软件,即使经过SNPEff和annovar注释(当然还有VEP),结果依然为VCF格式或者tab分割的文件等。

MAF中每一列是一种注释信息,由于包含的注释信息太多(详见格式),单纯的通过写脚本转换SNPEff或者annovar的注释文件,会变得非常麻烦而且考虑的问题可能不完全(有人实现过,通过Ensembl的VEP对VCF注释,然后转换,可以在github上搜索到)。

这里介绍注释软件oncotator,可以注释VCF文件,并直接生成MAF格式,相当于将VCF格式转换成MAF格式。Broad institute开发的,用起来放心哈。

Convert gtf to bed12 format --- gtf2bed

Some software requires bed12 format, not gtf/gff. So a convertion work should be done.

bedops gtf2bed

Easy way to get your result —- bedops

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
gtf2bed < Homo_sapiens.GRCh38.85.gtf ' head
1       11868   14409   ENST00000456328 0       +       11868   14409   0       3       359,109,1189,   0,744,1352,
1       12009   13670   ENST00000450305 0       +       12009   13670   0       6       48,49,85,78,154,218,    0,169,603,965,1211,1443,
1       17368   17436   ENST00000619216 0       -       17368   17436   0       1       68,     0,
1       14403   29570   ENST00000488147 0       -       14403   29570   0       11      98,34,152,159,198,136,137,147,99,154,37,        0,601,1392,2203,2454,2829,3202,3511,3864,10334,15130,
1       29553   31097   ENST00000473358 0       +       29553   31097   0       3       486,104,122,    0,1010,1422,
1       30266   31109   ENST00000469289 0       +       30266   31109   0       2       401,134,        0,709,
1       30365   30503   ENST00000607096 0       +       30365   30503   0       1       138,    0,
1       34553   36081   ENST00000417324 0       -       34553   36081   0       3       621,205,361,    0,723,1167,
1       35244   36073   ENST00000461467 0       -       35244   36073   0       2       237,353,        0,476,
1       52472   53312   ENST00000606857 0       +       52472   53312   0       1       840,    0,

Here we use UCSC’s package to convert gtf format file to bed12 format file.

Download UCSC package

1
2
3
wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred
wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/genePredToBed
chmod 755 gtfToGenePred genePredToBed