hg19、GRCH37、b37、hs37d5介绍和区别
大家经常用UCSC的hg19和NCBI的GRCh37版本的,但还有其他的版本,比如b37,hg37d5,比如在分析NIST的genome in a bottle(GIAB)提供的bam数据时,就遇到了hg37d5的版本,在用GATK的时候会遇到b37版本。
GRCh37
Genome Reference Consortium(基因组参照序列联盟),由英国Wellcome Trust Sanger研究中心(the Wellcome Trust Sanger Center)、华盛顿大学基因组中心(The Washington University Genome Center)、欧洲生物信息研究所(the European Bioinformatics Institute)和美国国家生物技术信息中心(NCBI)联合组成。
GRCH37版本发布之后,也会有小的更新,比如GRCh37.p2,大的更新比如由GRCh37升级到GRCh38,填补gap,修改部分序列,其目的是提供一个完整的基因组序列assemble。GRCh38已经在2013年发布,多数基因组数据库正在兼容或者更新到该版本。
该版本包含人类chr1到chr22,chrX,chrY,MT染色体以及
- “unlocalized sequences”:知道来自哪条染色体但不知道具体位置的序列
- “unplaced sequences”:知道来自人类基因组序列,但不知道与染色体的关系
- “alternate loci”:来自基因组特定区域,代表该区域序列的多样性 “1” to “22”, “X”, “Y” and “MT"命名比较规范,ENSEMBL, genome browser, the NCBI dbSNP (in VCF files), the Sanger COSMIC (in VCF files),都依照该规范。
下载地址:ftp://ftp.ncbi.nih.gov/genomes/Homo_sapiens