标签归档:Copynumber

CoNVaDING和DECoN简评–基于Panel测序的外显子拷贝数变异分析

目的

外显子水平的拷贝数变异和许多疾病有关系,需要检测外显子水平拷贝数变异。

需要解决的实践问题

1)成本问题:如果利用原有测序数据(全外显子测序数据或panel 测序),而不重复进行实验,实现一次测序,解决多种问题
2)灵敏度和特异性的问题:希望在高灵敏度的情况下,获得尽可能高的特异性
3)分辨率:需要外显子水平而非基因组范围内的拷贝数变异

样本

我们测了Coriell的已知有特定基因拷贝数变异的样本作为阳性样本,把正常人的样本作为对照样本

工具

随着分析技术的发展,针对外显子水平的分析工具开始出现,CoNVaDING、DECoN、PureCN、panelcn.MOPS、ExomeDepth、CODEX2,这些软件都利用了外显子区域的覆盖度信息,用参考基因组GC含量校正,然后根据不同算法来识别拷贝数变异。
从中选择了两种最新的软件CoNVaDING和DECoN。因为这两种软件不需要配对样本数据,只需提供实验样本和对照样本组即可,另外这两个软件较新。
CoNVaDING利用一组可能的对照样本,并从中选择模式pattern最相似的样本作为对照样本,并对每个基因所有目标区域的depth进行标准化,通过比较阳性样本和对照样本之间计算z score和ratio score判断外显子是否发生拷贝数变异。DECoN则是对ExomeDepth工具进行了优化,而ExomeDepth利用贝塔二项分布来描述特定区域正常样本和对照样本的覆盖度比值,用隐马尔可夫模型来预测。

DECoN 1.0.1 外显子拷贝数检测软件 https://github.com/RahmanTeam/DECoN
CoNVaDING 1.2.0 外显子拷贝数检测软件 https://github.com/molgenis/CoNVaDING

结果

我们做了很多工作来验证拷贝数分析工具的性能,涉及数据问题,只能简略的讨论一下CoNVaDING和DECoN的性能。

< 灵敏度>

灵敏度 PPA = Sensitivity = True positive/(True positive + false negative)

我们的多个拷贝数阳性样本,总共有22个外显子DUP和40个外显子DEL(分布在不同阳性样本上,且区域不尽相同)。各个流程的结果如下图,

可以看出CoNVaDING、DECoN和自研流程都将大部分外显子水平的拷贝数变异检测出,特别是DEL变异。检测性能最好的是DECoN,40个DEL变异全部检测出,而22个DUP变异中检测出21个。我们自己研发的流程和CoNVaDING都检测出了22个DUP变异中的18个。这说明检测的灵敏度尚可,且DECoN最佳。

< 特异性>

如果我能检测出拷贝数变异,但是存在于100个假阳性中,从这么多假阳性变异中找到真的拷贝数变异无疑是一项巨大的工作。所以我们要尽可能的提高特异性。
特异度 PPV = Specificity = True negative/(True negative + false positive)
各流程的灵敏度和特异性结果如下图

可以看出,DECoN的性能又是最佳,特异性达到了88%。自研流程因为缺陷问题,PPV最小。

< 其他>

我们还比较了对照样本数目对外显子拷贝数变异分析的影响,比较了DUP和DEL类别下的各流程的灵敏度和特异性。结果均显示DECoN可以在少量对照样本的情况下,达到分析要求,展示出最优异的性能。

结论和讨论

DECoN与CoNVaDING比起来,DECoN的性能更加,可以用来检测外显子水平的拷贝数变异。
1)在分析外显子拷贝数变异时应增加对照样本数目,提高PPV和PPA指标。此外在挑选对照样本时,应尽量选择与阳性样本同一测序平台、同一测序批次、相近数据量的样本。
2)在分析特定基因的外显子拷贝数变异时,不应只提供目标基因的区域,而应提供更多的额外基因区域,供软件来分析基因覆盖度的范式pattern,以提高软件分析目标区域外显子拷贝时的性能。

继续阅读

Varscan copynumber Recommended Workflow—has beed tested

官网提供的推荐流程错误非常多(年代久远??),迄今还没有人详细介绍正确的Varscan copynumber Recommended Workflow。本文改正了官网的recommend workflow,提供正确的pipeline供大家一起学习(我相信我是第一个提供完整流程的哈)。本流程的搭建和解决方案来自网络搜索,感谢万能的网络。本文 没有对命令和输出格式做过多说明,请参阅官方文档。

varscan可以通过配对的肿瘤和组织样本,看覆盖到同一区域内的reads在肿瘤和组织样本中的差异,来检测肿瘤组织中的CNV。

Varscan提供的命令

java -jar varscan.jar copynumber $normal.pileup $tumor.pileup  out
或
java -jar varscan.jar copynumber $normal-tumor.mpileup  --output-file out

结果如下:

varscan-copynumber-varscan-output

但是该结果只说明了某段区域内,肿瘤和组织depth的差异,区域相连,并没有指明哪个区域是CNV区域,发生了deletion还是insertion等。于是varscan又提供了Recommended Workflow,据说是别人提供给varscan作者的,bug百出惨目忍住。本文会在下文提供正确的流程。在此先提下Recommended Workflow的原理。

原理:

都知道在高通量测序之前,用的是生物芯片。芯片上的每个点都是基因组上的一个marker,通过检测肿瘤样本和组织样本中同一marker荧光强度比值,找到染色体上比值发生改变的位点,然后推荐CNV区域。其中有一种算法,叫做circular binary segment CBS环状二元分割算法(恕我愚笨,不了解这种算法)。R语言包DNAcopy利用CBS和每个marker的lg2ratio,判断那些区域是CNV。那高通量测序varscan的结果如何利用CBS算法呢。从varscan的输出结果可以看出,varscan提供了一定区域内的lg2ratio,Recommended Workflow就将这个区域的起始位点当作这个区域的marker,并与该区域的lg2ratio对应,于是便和芯片检测CNV的方法对接上去了。 继续阅读