hg19对应GRCh37,UCSC提供hg19的参考基因组下载。UCSC的下载地址在ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

需要经过下载每个染色体,然后解压合并成一个整个的基因组文件 ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

其实这样有点浪费时间,还要考虑合并的时候染色体的顺序是否按照1,2,3而不是1,10,11排下来的。目前我知道的最简单的办法的,从GATK bundle中下载。比如hg19整个基因组的文件。下面是一步到位的命令,包括了fasta,fai,dict文件。

1
wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg19/ucsc.hg19*

GATK bundle还提供一下其他文件,可以看看( ftp://ftp.broadinstitute.org/bundle ),比如dict文件,hg38文件等。当然构建参考基因组不一定非要合并染色体,个人习惯。

补充:UCSC也提供一个genome.fa的下载,ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

此外Gencode也提供了丰富的注释和统一的基因组序列: https://www.gencodegenes.org/human/, 要注意是否是你需要的基因组版本

NCBI也提供genome fasta,不过需要自己转换下染色体的ID。

####################################################################

#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任

#Author: Jason

####################################################################