hg19、GRCH37、b37、hs37d5介绍和区别

2018-02-09

Default Category

文章目录

大家经常用UCSC的hg19和NCBI的GRCh37版本的，但还有其他的版本，比如b37，hg37d5，比如在分析NIST的genome in a bottle（GIAB）提供的bam数据时，就遇到了hg37d5的版本，在用GATK的时候会遇到b37版本。

GRCh37

Genome Reference Consortium(基因组参照序列联盟)，由英国Wellcome Trust Sanger研究中心（the Wellcome Trust Sanger Center）、华盛顿大学基因组中心（The Washington University Genome Center）、欧洲生物信息研究所（the European Bioinformatics Institute）和美国国家生物技术信息中心（NCBI）联合组成。

GRCH37版本发布之后，也会有小的更新，比如GRCh37.p2，大的更新比如由GRCh37升级到GRCh38，填补gap，修改部分序列，其目的是提供一个完整的基因组序列assemble。GRCh38已经在2013年发布，多数基因组数据库正在兼容或者更新到该版本。

该版本包含人类chr1到chr22，chrX，chrY，MT染色体以及

“unlocalized sequences”：知道来自哪条染色体但不知道具体位置的序列
“unplaced sequences”：知道来自人类基因组序列，但不知道与染色体的关系
“alternate loci”：来自基因组特定区域，代表该区域序列的多样性 “1” to “22”, “X”, “Y” and “MT"命名比较规范，ENSEMBL， genome browser， the NCBI dbSNP (in VCF files), the Sanger COSMIC (in VCF files),都依照该规范。

下载地址：ftp://ftp.ncbi.nih.gov/genomes/Homo_sapiens

GRCh37lite

只包含GRCh37版本中的chr1到chr22，chrX，chrY，MT染色体

下载地址：ftp://ftp.ncbi.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/special_requests/

hg19

UCSC提供，容易下载，因为UCSC方便下载各种坐标文件（bed，gtf等），该版本可以与这些坐标对应。与GRCh38对应的是hg38版本。

该版本序列包括chr1到chr22，chrX，chrY序列与GRCh37完全一致（完全一致，完全一致），线粒体序列稍微不一样，以及

“chr*_random sequences” 知道来自哪条染色体但不知道具体位置的序列
“chrUn_* sequences” 知道来自人类基因组序列，但不知道与染色体的关系

UCSC与GRCh不同的地方有：

在重复区域repeat region有小写来表示，这点和GRCh不同
此外染色体有chr前缀，而GRCh没有chr前缀。
线粒体序列版本不一样

下载地址：ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes

b37

来自1000 Genome第一阶段，被称为b37（GATK和IGV社区小组中经常使用），包含了GRCh37, the rCRS mitochondrial sequence（MT序列） unlocalized sequences和unplaced sequences以他们的检索号命名，比如"GL000191.1”, “GL000194.1”, etc. 但是不（不不不）包含 alternate loci

下载地址：ftp://ftp.broadinstitute.org/pub/seq/references

hs37d5

可以理解成b37的升级版，在1000 Genome第二阶段使用。该版本包含了b37数据，以及

human herpesvirus 4 type 1 sequence 人类疱疹病毒序列(“NC_007605”)
“decoy” sequence诱饵序列（名为hs37d5）来自HuRef、BAC或者质粒克隆和NA12878，可以提高序列比对的正确率
此外在Y染色体上的性染色体同源区域PAR标为N碱基，这样对应的X染色体的区域当作二倍体

这些更改有利于序列比对和突变检测，降低假阳性与b37兼容。

PS：正如以前讲到的（文章《思考在比对时，关于是否将chr*random和chrUn*序列放在参考基因组中的思考》），序列比对不要只放chr1到chr22，chrX，chrY和MT（我见过国内知名测序公司有这么干的），其他序列和诱饵序列非常重要，可以提高比对的准确率，降低假阳性。

详情见：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.slides.pdf 下载地址：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/phase2_reference_assembly_sequence

参考

http://googlegenomics.readthedocs.io/en/latest/use_cases/discover_public_data/reference_genomes.html https://wiki.dnanexus.com/Scientific-Notes/human-genome

####################################################################

#版权所有转载请告知版权归作者所有如有侵权一经发现必将追究其法律责任

#Author: Jason

####################################################################

文章作者 zzx

上次更新 2018-02-09