PS:我不经常用蛋白质数据库,不过看到这个总结的挺详细的,就转过来了。

一、蛋白质数据库


1.UniProt (The Universal Protein Resource)

网址:http://www.uniprot.org/ http://www.ebi.ac.uk/uniprot/ 简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

2.PIR(Protein Information Resource)

网址:http://pir.georgetown.edu/ 简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。

3.BRENDA(enzyme database)

网址:http://www.brenda-enzymes.org 简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

4.CORUM(collection of experimentally verified mammalian protein complexes)

网址:http://mips.gsf.de/genre/proj/corum/index.html 简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等

5.CyBase(cyclic protein database)

网址:http://research1t.imb.uq.edu.au/cybase 简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。

6.DB-PABP

网址:http://pabp.bcf.ku.edu/DB_PABP/ 简介:聚阴离子结合蛋白数据库。聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。该数据库提供已被鉴定的聚阴离子结合蛋白的数据,与NCBI蛋白数据库存在交叉应用。

7.IUPHAR-DB

网址:http://www.iuphar-db.org 简介:G蛋白偶联受体、离子通道数据库。提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。

8.GLIDA

网址:http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/  简介:G蛋白偶联受体-配体数据库,提供G蛋白偶联受体-配体互作数据、配体数据、G蛋白偶联受体数据、同源受体关系网、保守识别区,为新药发现提供了支持。

9.LOCATE

网址:http://locate.imb.uq.edu.au/ 简介:哺乳动物蛋白质亚细胞定位数据库

10.InterPro

网址:http://www.ebi.ac.uk/interpro/ 简介:蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。

11.OKCAM

网址:http://okcam.cbi.pku.edu.cn 简介:人体细胞粘附分子数据库。

二、蛋白质组数据库


1.GELBANK

网址:http://gelbank.anl.gov 简介:提供全基因组的二维凝胶电泳图谱,搜集了已知基因组信息生物的蛋白质组二维凝胶电泳图。可通过描述相对分子质量、等电点和蛋白质序列信息进行快速检索。

2.SWISS-2DPAGE

网址:http://www.expasy.org/ch2d/ 简介:提供人类、小鼠、大肠杆菌、酿酒酵母、盘基网柄菌的2D-PAGE参考图。

3.SysPIMP(Systematical Platform for Identifying Mutated Proteins)

网址:http://pimp.starflr.info/ 简介:通过质谱技术建立的蛋白质突变数据库。当蛋白质某一氨基酸残基发生改变时,其质谱图也会发生改变,通过蛋白质质谱图的改变,检测与疾病相关的突变。

4.Sys-BodyFluid

网址:http://www.biosino.org/bodyfluid/ 简介:人体体液蛋白组研究数据库。提供人体各种体液的蛋白质组数据,包括血浆/血清、尿液、乳汁、泪、汗液、唾液、骨髓液、脑脊液、胃液等。

5.BloodExpress

网址:http://hscl.cimr.cam.ac.uk/bloodexpress/ 简介:小鼠造血过程基因表达数据库

6.CentrosomeDB(human centrosomal proteins database)

网址:http://centrosome.dacya.ucm.es 简介:人体中心体蛋白数据库

7.ConsensusPathDB

网址:http://cpdb.molgen.mpg.de 简介:人类功能作用网络数据库,与多个数据库有交叉应用,提供蛋白质互作、生化反应、基因调控等作用网数据。

8.Proteome Analysis Database

网址:http://www.ebiac.uk.proteome/ 简介:蛋白质组分析数据库

9.HPRD(Human Protein Reference Database)

网址:http://www.hprd.org/ 简介:人体蛋白文献数据库

10.NOPdb

网址:http://www.lamondlab.com/NOPdb3.0/ 简介:核仁蛋白组数据库

11.EndoNet

网址:http://endonet.bioinf.med.uni-goettingen.de/ 简介:细胞通讯网络数据库,提供激素、激素受体相关信息

三、蛋白质互作、蛋白质网络数据库


1.3DID(3D interacting domains)

网址:http://3did.irbbarcelona.org http://gatealoy.pcb.ub.es/3did/ 简介:搜集3D结构已知的蛋白质的互作信息,可通过结构域名称、基序名称、蛋白质序列、GO编码、PDB ID、Pfam编码进行检索。

2.DOMINE

网址:http://domine.utdallas.edu 简介:结构域互作数据库。

3.PiSite(Database of Protein interaction sites)

网址:http://pisite.hgc.jp 简介:以PDB为基础,在蛋白质序列中搜寻互作位点。

4.Binding MOAD

网址:http://www.BindingMOAD.org 简介:致力于提供蛋白质-配体晶体结构数据信息。提供结构已知的蛋白质的相关配体,并附有详细注释,同时提供由实验而得的亲和力数据。

5.Phospho.ELM

网址:http://phospho.elm.eu.org 简介:蛋白质磷酸化位点数据库

6.SuperSite

网址:http://bioinformatics.charite.de/supersite 简介:蛋白质中代谢物、药物结合位点数据库,提供结合机制、识别机制、保守结合位点等信息。

7.STITCH

网址:http://stitch.embl.de/ 简介:蛋白质-化合物作用网数据库

8.Reactome

网址:http://www.reactome.org 简介:人体生命活动路径与过程数据库,提供生化过程网络图,并对参与其中的蛋白质分子有详细注解,与其他数据库如UniPort、KEGG、OMIM等建立了广泛的交叉应用。

9.PID(Pathway Interaction Database)

网址:http://pid.nci.nih.gov 简介:由NCI和Nature共同创立,提供已知的人体细胞信号转导、调节活动及主要细胞生命过的蛋白质路径网,可通过输入某个分子名或代谢过程名称进行查询。

10.UniHI(Unified Human Interactome database)

网址:http://www.unihi.org 简介:人体蛋白-蛋白相互作用数据库,可根据蛋白质名称、代谢路径等进行查询。

11.VirHostNet

网址:http://pbildb1.univ-lyon1.fr/virhostnet/index.php 简介:病毒-宿主分子互作网数据库,提供病毒-宿主蛋白质互作信息及这些蛋白质的相关注释。可通过输入基因、蛋白质、路径等关键词进行查询。

12.Bionemo(molecular information on biodegradation metabolism)

网址:http://bionemo.bioinfo.cnio.es 简介:搜集与生物降解代谢相关的蛋白质、基因数据,包括蛋白质序列、结构域、结构;基因序列、调控元件、转录单元等信息。除此之外还包括生物降解的代谢路径图、相关生化反应等。

13.PMAP

网址:http://www.proteolysis.org 简介:蛋白质水解路径数据库

四、蛋白质三维结构数据库


1.PDB(Protein Data Bank)

网址:http://www.rcsb.org/pdb 简介:生物大分子结构数据库,提供蛋白质、核酸等生物大分子的三维结构数据、序列详细信息、生化性质等。

2. SARST (Structural similarity search Aided by Ramachandran Sequential Transformation)

网址:http://sarst.life.nthu.edu.tw/ 简介:高效的蛋白质结构比对数据库

五、蛋白质基序数据库


1. CDD(Conserved Domain Database)

网址:http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml 简介:蛋白质的功能与其结构密切相关,一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。CDD,蛋白质保守结构域数据库,收集了大量保守结构域序列信息和蛋白质序列信息。检索者通过CD-Search服务,可获得蛋白质序列中所含的保守结构域信息,从而分析、预测该蛋白质的功能。

2.Blocks

网址:http://blocks.fhcrc.org 简介:蛋白家族保守区对比数据库

3.CPDB(database of circular permutation in proteins)

网址:http://sarst.life.nthu.edu.tw/cpdb 简介:蛋白质环形序列重组基序数据库。蛋白质的环形序列重组(Circular permutation, or CP)可看作是原来的N与C端被接在一起,然后在另一处产生新开口。 虽然当前已有很多知名的蛋白质家族被发现有CP成员,而且也有研究指出蛋白质结构资料库中可能存在着不少CP实例,高效率的CP搜寻工具却很罕见。CPSARST提供了一套有效的CP搜寻工具。

4.MegaMotifbase

网址:http://caps.ncbs.res.in/MegaMotifbase/index.html 简介:蛋白质基序家族、超家族数据库,提供已知基序的3D定位图、转角距等数据。

5.Minimotif Miner

网址:http://mnm.engr.uconn.edu 简介:蛋白质基序检测数据库,提供在蛋白质序列中寻找基序的服务。

6.Pfam

网址:http://www.sanger.ac.uk/Software/Pfam 简介:提供多序列比对服务和并提供共同的蛋白质结构域的隐马尔可夫模型。

六、预测类数据库


1.InterPreTS(Interaction Prediction through Tertiary Structure)

网址:http://www.russell.embl.de/cgi-bin/interprets2 简介:提供通过三级结构预测蛋白质相互作用的服务,可输入两个蛋白质的序列信息进行查询。

2.Predictome

网址:http://predictome.bu.edu 简介:预测蛋白质间功能关系的数据库。这些蛋白质间的关系是基于将3种计算机预测法,即染色体相邻法、系统发育谱法、结构域融合法应用与44个基因组上而得到的。

七、蛋白鉴定类数据库


Contaminants

当我们搜索单一物种分类数据库时,记得养成一个好习惯,就是同时选择Contaminants数据库进行匹配,因为污染总是很难避免的!这类数据库中包含常见的污染蛋白如keratins、BSA和 trypsin,帮助我们把需要鉴定的目标蛋白与实验中污染进来的蛋白进行区分。

目前有两个组织提供此类数据库下载:

Max Planck Institute of Biochemistry, Martinsried,提供了一套来自多种来源,含有247个蛋白的数据库。

下载方式: http://maxquant.org/contaminants.zip

Tips:不要在网页浏览器里打开哦,因为很可能会显示网址无效,直接找个下载工具下载即可,比如把链接拷到QQ里,启动QQ旋风下载助手就可以下载了。

Global Proteome Machine Organization common Repository of Adventitious Proteins 提供了一套包含116个来自于Swiss-Prot的污染蛋白库 。

下载方式: ftp://ftp.thegpm.org/fasta/cRAP/crap.fasta

EMBL EST

由EMBL维护的EST Fasta 数据库,“single-pass” cDNA 序列,或表达序列标签 Expressed Sequence Tags。该数据库包含十个分类: • ENV: Environmental Samples • FUN: Fungi • HUM: Human • INV: Invertebrates • MAM: Other Mammals • MUS: Mus musculus • PLN: Plants • PRO: Prokaryotes • ROD: Rodents • VRT: Other Vertebrates

下载方式:单一分类的Fasta文件可以从EBI FTP 服务器上下载。比如FTP上啮齿类动物序列库的压缩文件名就是: em_rel_est_rod.gz,而真菌的是em_rel_est_fun.gz。

物种分类:一些比较友好的商业软件,比如Mascot,会将所有分类信息在后台进行自动更新下载。如果你用的软件没有这个功能,那就要手动下载,然后根据软件的操作要求,比如解压缩到某个Taxonomy子目录。

FASTA文件库: ftp://ftp.ebi.ac.uk/pub/databases/embl/misc/acc_to_taxid.mapping.txt.gz 物种分类信息: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Unigene索引:NCBI的 UniGene的索引由GenBank序列自动分割成非冗余的以基因为单位的簇。如果使用UniGene索引,EST数据库的搜库结果会按照基因家族进行分类,而不会仅仅以原始的EST索引号展示。

NCBI EST

大名鼎鼎的NCBI (National Center for Biotechnology Information) 提供三个不同的 EST 数据库,同样也包含GenBank EST库中的"single-pass" cDNA 序列,或 Expressed Sequence Tags。

三个 EST 数据库分别是: human、mouse和 others。目前的版本,压缩过的EST_others 文件有11GB大小,而解压后有40 GB。小伙伴们需要注意,像这么大的数据库,32位操作系统是无法处理的,而必须使用64位系统配合足够大的内存。NCBI目前依然没有计划分割EST_others数据库,因此小编觉得比较实用的还是EMBL EST库。

下载方式: 访问 ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/est_others.gz或对应的其他名称下载相应的数据库。

物种分类:以Mascot为例,对于 EST_others,在数据库配置时选择 “dbEST FASTA using GI2TAXID”。Mascot需要更新以下文件来构建索引,如果手动下载,同样将它们解压到指定的Taxonomy目录: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Unigene:与EMBL相同

NCBInr

Nr数据库也是由NCBI (National Center for Biotechnology Information) 维护。它包含来自于GenBank CDS translations、PDB、Swiss-Prot、PIR 和PRF的非等同序列。NCBInr的特点在于其更新速度非常快,且涵盖度很高。

下载方式: ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz 由于广受欢迎,一些搜索软件直接做了自动更新功能,比如Mascot 2.3版本及以上的,初始配置成功以后就不用管了,软件会自动去check并且在本地更新这个数据库。

物种分类:以Mascot为例,在联网更新NCBInr时会自动进行分类索引库下载,并应用"NCBI nr FASTA using GI2TAXID"的格式。

SwissProt

UniProtKB/Swiss-Prot (reviewed) 是一个高质量人工注释且非冗余的蛋白序列数据库。其中包含各类实验结果、计算得到的特征信息和文献信息等。UniProtKB中85%的序列是由EMBL-Bank/GenBank/DDBJ 公共核酸数据库中的coding sequences (CDS) 序列翻译而来。 而UniProtKB 本身是European Bioinformatics Institute、Swiss Institute of Bioinformatics 和 Protein Information Resource合作成立。由于其高质量,它被很多人列为首选数据库之一。

下载方式: Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/ EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase 其中: Version info: reldate.txt SwissProt Fasta file: uniprot_sprot.fasta.gz SwissProt Dat file: uniprot_sprot.dat.gz

物种分类:以Mascot为例,物种分类会自动后台更新,并对应格式: “SwissProt FASTA”。

Trembl

UniProtKB/TrEMBL (unreviewed) 计算辅助预测注释信息和功能信息的蛋白序列,而都还没经过人工注释。

下载方式,物种分类格式等信息均和Swissprot一致,相关文件为: TrEMBL Fasta file: uniprot_trembl.fasta.gz TrEMBL Dat file: uniprot_trembl.dat.gz

UniRef

UniRef (UniProt Reference Clusters) 从UniProtKB(含isoform序列信息)提供的序列进行聚类。所用的种子序列是各簇中最长的序列。UniRef包含三个子库,按照序列相似度分别为UniRef100, UniRef90和UniRef50。UniRef100无相同序列,而UniRef90和UniRef50则是非冗余的,聚类相似度90%和50%。基于质谱的序列搜索都要求序列的绝对匹配,因此UniRef100适用于蛋白质组学质谱搜库。

下载方式: PIR: ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/ EBI: ftp://ftp.ebi.ac.uk/pub/databases/uniprot/uniref/uniref100/ Expasy: ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref100/ 包含文件: Version info: uniref100.release_note Fasta file: uniref100.fasta.gz

物种分类:UniRef采用以下索引库: ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz

Uniprot Proteomes

UniProt全蛋白质组数据库包含多个模式生物的全基因组蛋白表达信息。其中收集的Reference Proteome包含多个研究比较透彻或者生物研究中比较受关注的物种的最全面的蛋白质组序列信息。

下载方式:相关物种的序列数据库可以访问http://www.uniprot.org搜索Taxonomy,并点击有关键词"Complete proteome"的物种分类,或者直接使用关键词如: (e.g.http://www.uniprot.org/uniprot/?query=taxonomy%3A4530+AND+keyword%3A%22Complete+proteome%22&sort=score )可以搜索到人类基因组的Ref Proteome。

搜索结果中点击Download,并选择格式 FASTA(Canonical)。

私有数据库

蛋白质序列数据库FASTA是一个非常流行的标准格式,而且要求非常简单。因此实验室自己收集整理的序列都可以格式化成FASTA并用于搜库。

Title text SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE SEQUENCESEQUENCESEQUENCESEQUENCESEQUENCESEQUENCE SEQUENCESEQUENCESEQUENCE Next title NEXTSEQUENCE …

以上是一个标准的例子,> 之后是序列ID号和描述信息,然后紧跟整个序列信息,第二个蛋白重新以>开头即可。下面是一些ID和描述信息的例子。

gi'6’bgi’Contig1.seq_7'2412 3299 [+3 L= 888] [Delayed 20021010.2.1 1112073F09.y1 1112091F10.y1 1112073F0 IPI:IPI00140097.1’REFSEQ_XP:XP_168061 Tax_Id=9606 CCRB cytochrome c [validated] - rabbit gi'129249’sp’P02820’OSTC_BOVIN Osteocalcin precursor “ORF5 ' start 2178-1309 ' frame -1 ' length=870 '

常用的搜库软件通常需要用户提供一个名称比较统一、符合一定规范的信息,才能将名称中ID和描述信息进行较好地分离。具体的操作需要参考不同软件的操作手册说明。

文章来源:细胞之邦,生物秀论坛和克里克学院,文章版权归原作者所有