思考--在比对时，关于是否将chr*_random和chrUn_*序列放在参考基因组中的思考

通常认为chr1-22，chrY，chrX和chrM为参考基因组序列，于是包括我在内的很多人，分别下载了25条染色体序列，合并成一个fasta文件，用bowtie2或者BWA构建index，用于下一步的read比对，然后是各种分析（包括突变、转录表达等）。

UCSC下载的HG19版本的整个参考基因组文件http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz中，除还包括chr*random和chrUn序列（暂时理解为补丁序列，真实的补丁序列称呼常见assemble过程，见http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/info/patches.shtml，有fix 和novel patch，这里我们现在只讨论chrrandom和chrUn*）。

The chr_random* sequences are unplaced sequence on those reference chromosomes.

The chrUn_* sequences are unlocalized sequences where the corresponding reference chromosome has not been determined.

当然如果DNA或RNA测序的read比对到chr*random 和 chrUn* 序列上，显示大多数人都不关注这些序列上信息，我想这也是很多人不把chr*random 和 chrUn* 放到参考基因组fasta文件中的原因。但是，chr*random 和 chrUn* 显然是存在的，只不过现在暂时没有确定位置或者后续用于基因组序列更正。

如果参考基因组序列中不包含chr*random 和 chrUn序列，那么原来属于chrrandom 和 chrUn的read则有可能比对到（不是一定）chr1-22，chrX，chrY上的相似区域（这些区域与chrrandom 和 chrUn*中的部分区域相似），造成假阳性比对，后续这些reads提供的信息都是不可靠的。

如果参考基因组序列中包含chr*random 和 chrUn序列，那么来自这些区域的reads则会正确的比对到这个地方，没有假阳性比对，只不过后续分析不需要考虑chrrandom 和 chrUn*即可。

1
2
3
4


假设有一条read来自chr1_random，
条件                                     比对结果             分析结果
基因组fa文件包含chr1_random序列          比对到chr1_random    后续不考虑
基因组fa文件中不包含chr1_random序列      比对到chr1           造成假阳性<

举个例子，以前，我们确认一个突变是否存在，看覆盖这个点的read上有多少突变的碱基，如果覆盖这个点的read本来属于chr*random 和 chrUn*序列的，但比对到这个地方，即使这个位点的突变碱基再多，也是个假阳性突变，影响后续分析。

综上，参考基因组需要放chrrandom和chrUn序列，降低reads比对时的假阳性。

####################################################################

#Author: Jason

###################################################################

思考--在比对时，关于是否将chr_random和chrUn_序列放在参考基因组中的思考

文章目录