标签归档:Viewpoint

思考—基因组中那些“看起来”很严重的突变往往不致病

在全基因组数据或者外显子数据得到的突变通过注释之后,每个人或多多少都含有一定数目的“看起来”很严重的突变,比如剪切位点上突变,终止密码子突变,移码突变等等(正如《ExAC-外显子组聚合数据库:揭露那些“披着狼皮的羊”基因》标题中的描述———披着狼皮的羊)。

但真实情况是,人并没有疾病表型,或者疾病只与其中的个别突变有关系,其他的突变都没有影响。这是我一直思考的问题,偶然机会,我向业内做遗传咨询的一个博士(感谢)提出这个问题,讨论之后认为主要有以下几点原因:

一,很多基因不是必须基因,即使全部删除也不影响机体的正常功能。

二,隐性基因即使有一份被破坏,不影响另外一份行使功能。

三,如果参考的是文献中的致病突变,有很多是假的。也就说参考文献有可能存在假的结果。

四,机体有很强的代偿能力,即使真的是有缺陷的基因,机体也有可能代偿其缺陷而不影响正常机体功能,比如有一些个体携带确定致病的基因突变,表型仍正常。

欢迎您留言补充。

https://www.genome.gov/images/content/costperMb2015_4.jpg

PS:虽然在以往的生物学研究中,我们发现了很多(经典案例的)携带有某个突变会导致疾病,但这种突变往往是罕见病的致病突变。也不绝对,可能有些人确实携带我们认为的致病突变,但由于机体的其他通路代偿功能,补偿了该突变造成的损害。因为机体是一个复杂的过程,复杂到现在我们都不清楚对生命的过程有多少了解。过往的经典研究案例越来越少,从复杂的整体层面来研究或许能够突破现在的瓶颈。

DNA双螺旋的发现是由于 物理和化学中X光射线衍射的介入。细胞微观结构的发现是由于 物理和电子中的电子显微镜的介入。每一次生物学的飞跃都与其他学科的介入,带来新的研究方式有关。

现在,正是这个时代,高通量测序技术和计算机技术的飞速发展,生物领域或许正在下一次飞跃的黎明。

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
####################################################################

思考–在比对时,关于是否将chr*_random和chrUn_*序列放在参考基因组中的思考

通常认为chr1-22,chrY,chrX和chrM为参考基因组序列,于是包括我在内的很多人,分别下载了25条染色体序列,合并成一个fasta文件,用bowtie2或者BWA构建index,用于下一步的read比对,然后是各种分析(包括突变、转录表达等)。

UCSC下载的HG19版本的整个参考基因组文件http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz中,除还包括chr*_random和chrUn_*序列(暂时理解为补丁序列,真实的补丁序列称呼常见assemble过程,见http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/info/patches.shtml,有fix 和novel patch,这里我们现在只讨论chr*_random和chrUn_*)。

The chr*_random sequences are unplaced sequence on those reference
chromosomes.

The chrUn_* sequences are unlocalized sequences where the corresponding
reference chromosome has not been determined.

当然如果DNA或RNA测序的read比对到chr*_random 和 chrUn_* 序列上,显示大多数人都不关注这些序列上信息,我想这也是很多人不把chr*_random 和 chrUn_* 放到参考基因组fasta文件中的原因。但是,chr*_random 和 chrUn_* 显然是存在的,只不过现在暂时没有确定位置或者后续用于基因组序列更正。

如果参考基因组序列中不包含chr*_random 和 chrUn_*序列,那么原来属于chr*_random 和 chrUn_*的read则有可能比对到(不是一定)chr1-22,chrX,chrY上的相似区域(这些区域与chr*_random 和 chrUn_*中的部分区域相似),造成假阳性比对,后续这些reads提供的信息都是不可靠的。

如果参考基因组序列中包含chr*_random 和 chrUn_*序列,那么来自这些区域的reads则会正确的比对到这个地方,没有假阳性比对,只不过后续分析不需要考虑chr*_random 和 chrUn_*即可。

假设有一条read来自chr1_random,
条件                                     比对结果             分析结果
基因组fa文件包含chr1_random序列          比对到chr1_random    后续不考虑
基因组fa文件中不包含chr1_random序列      比对到chr1           造成假阳性

举个例子,以前,我们确认一个突变是否存在,看覆盖这个点的read上有多少突变的碱基,如果覆盖这个点的read本来属于chr*_random 和 chrUn_*序列的,但比对到这个地方,即使这个位点的突变碱基再多,也是个假阳性突变,影响后续分析。

综上,参考基因组需要放chr*_random和chrUn_*序列,降低reads比对时的假阳性。

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
####################################################################