测序数据的预处理

测序得到的原始测序序列,里面含有低质量的reads。低质量的reads可能因为flowcell上的cluters不是有单一DNA扩增而来,或者几个cluters混为一起等。还有测序仪在前几个和几个cycle测序质量不好,需要关注一条read的前后几个碱基的质量。如果质量非常不好,测出来的碱基可能为N(无法确定碱基类型)。

此外,原始reads中还包含测序接头等序列。如果一个文库的平常插入长度为450bp的话,不一定每个插入长度都为450bp,如果个别分子插入长度为100bp,双端配对150bp测序的,会将该片断测穿,配对的reads会多包含50bp的index或者SP等序列。为了保证信息分析质量,需要对下机的raw reads 进行精细过滤,得到clean reads,后续分析都基于clean reads进行。

为了提高下一步的比对质量,此时数据预处理的过程主要包括: • 去掉接头,去掉开头和结尾几个碱基中质量不好的碱基 • 滑窗扫描,检查是否有好几个连续碱基质量不好的情况 • 丢弃过短的read • 去接头 • 去掉前端碱基质量低于一定值的碱基 • 去掉后端碱基质量低于一定值的碱基 • 以4bp为窗口滑窗扫描read,如果4个碱基平均质量低于15,则截断 • 丢弃序列长度小于36bp的reads

文件介绍--FASTQ文件格式

在培训部门同事的时候,发现刚开始学生信的人,只是在学如何运行命令,但对自己手头的文件格式和内容却不了解,这对分析的流程的深入理解和研究是非常不好的,所以刚学习的人,应该在等待分析结果的时候,多去了解下文件的内容,程序的大体算法等,这对以后的工作优化是非常有好处的。本文简单介绍一下Fastq的文件格式,希望新手多查文档,多了解自己接触的东西。

文库构建和测序

DNA分子会通过超声波或者酶被打断成几百碱基的小片段,然后在小片段DNA分子的两端添加接头,便于测序和样本区分。当然现在也有转座酶技术,通过转座酶同时实现DNA片断化和加接头和引物的过程。将文库上机,文库中的DNA分子首先与flowcell上lane中的接头结合,通过桥式PCR进行扩增(cluster簇增长),待达到一定量之后,进行便合成边测序。

遗传解读遇到基因LoF或deletion可以从单倍剂量不足下手

单倍剂量不足

最近在解读过程中,接触到一个新的名词-单倍剂量不足,它的英文名字叫做Haploinsufficiency。单倍剂量不足指一个等位基因突变或者缺失后后,另一个等位基因能正常表达,这种基因表达翻译后的蛋白水平只有正常的50%,但不足以维持正常的生理功能,导致特定表型出现。

导致单倍剂量不足的愿意可能有多种,比如一个基因的拷贝发生缺失,或者突变导致不能产生正常的mRNA,或者特殊情况下mRNA或蛋白质不稳定导致降解等。

与解读相关的是,单倍剂量不足现象是导致遗传病发生的一个原因,如果一个基因存在单倍剂量不足的机制,loss of fucntion或者gene deletion可能会导致疾病发生。具体到日常解读中,遇到LoF或者gene deletion,我们可以通过查询NCBI的ClinGen和ExAC的pLI(loss-intolerance)来查看基因是否存在单倍剂量不足,进而寻找可能致病的线索。

CoNVaDING和DECoN简评--基于Panel测序的外显子拷贝数变异分析

目的

外显子水平的拷贝数变异和许多疾病有关系,需要检测外显子水平拷贝数变异。

需要解决的实践问题

1)成本问题:如果利用原有测序数据(全外显子测序数据或panel 测序),而不重复进行实验,实现一次测序,解决多种问题 2)灵敏度和特异性的问题:希望在高灵敏度的情况下,获得尽可能高的特异性 3)分辨率:需要外显子水平而非基因组范围内的拷贝数变异

样本

我们测了Coriell的已知有特定基因拷贝数变异的样本作为阳性样本,把正常人的样本作为对照样本

工具

随着分析技术的发展,针对外显子水平的分析工具开始出现,CoNVaDING、DECoN、PureCN、panelcn.MOPS、ExomeDepth、CODEX2,这些软件都利用了外显子区域的覆盖度信息,用参考基因组GC含量校正,然后根据不同算法来识别拷贝数变异。 从中选择了两种最新的软件CoNVaDING和DECoN。因为这两种软件不需要配对样本数据,只需提供实验样本和对照样本组即可,另外这两个软件较新。 CoNVaDING利用一组可能的对照样本,并从中选择模式pattern最相似的样本作为对照样本,并对每个基因所有目标区域的depth进行标准化,通过比较阳性样本和对照样本之间计算z score和ratio score判断外显子是否发生拷贝数变异。DECoN则是对ExomeDepth工具进行了优化,而ExomeDepth利用贝塔二项分布来描述特定区域正常样本和对照样本的覆盖度比值,用隐马尔可夫模型来预测。

DECoN 1.0.1 外显子拷贝数检测软件 https://github.com/RahmanTeam/DECoN CoNVaDING 1.2.0 外显子拷贝数检测软件 https://github.com/molgenis/CoNVaDING