遗传解读遇到基因LoF或deletion可以从单倍剂量不足下手

单倍剂量不足

最近在解读过程中,接触到一个新的名词-单倍剂量不足,它的英文名字叫做Haploinsufficiency。单倍剂量不足指一个等位基因突变或者缺失后后,另一个等位基因能正常表达,这种基因表达翻译后的蛋白水平只有正常的50%,但不足以维持正常的生理功能,导致特定表型出现。

导致单倍剂量不足的愿意可能有多种,比如一个基因的拷贝发生缺失,或者突变导致不能产生正常的mRNA,或者特殊情况下mRNA或蛋白质不稳定导致降解等。

与解读相关的是,单倍剂量不足现象是导致遗传病发生的一个原因,如果一个基因存在单倍剂量不足的机制,loss of fucntion或者gene deletion可能会导致疾病发生。具体到日常解读中,遇到LoF或者gene deletion,我们可以通过查询NCBI的ClinGen和ExAC的pLI(loss-intolerance)来查看基因是否存在单倍剂量不足,进而寻找可能致病的线索。

CoNVaDING和DECoN简评--基于Panel测序的外显子拷贝数变异分析

目的

外显子水平的拷贝数变异和许多疾病有关系,需要检测外显子水平拷贝数变异。

需要解决的实践问题

1)成本问题:如果利用原有测序数据(全外显子测序数据或panel 测序),而不重复进行实验,实现一次测序,解决多种问题 2)灵敏度和特异性的问题:希望在高灵敏度的情况下,获得尽可能高的特异性 3)分辨率:需要外显子水平而非基因组范围内的拷贝数变异

样本

我们测了Coriell的已知有特定基因拷贝数变异的样本作为阳性样本,把正常人的样本作为对照样本

工具

随着分析技术的发展,针对外显子水平的分析工具开始出现,CoNVaDING、DECoN、PureCN、panelcn.MOPS、ExomeDepth、CODEX2,这些软件都利用了外显子区域的覆盖度信息,用参考基因组GC含量校正,然后根据不同算法来识别拷贝数变异。 从中选择了两种最新的软件CoNVaDING和DECoN。因为这两种软件不需要配对样本数据,只需提供实验样本和对照样本组即可,另外这两个软件较新。 CoNVaDING利用一组可能的对照样本,并从中选择模式pattern最相似的样本作为对照样本,并对每个基因所有目标区域的depth进行标准化,通过比较阳性样本和对照样本之间计算z score和ratio score判断外显子是否发生拷贝数变异。DECoN则是对ExomeDepth工具进行了优化,而ExomeDepth利用贝塔二项分布来描述特定区域正常样本和对照样本的覆盖度比值,用隐马尔可夫模型来预测。

DECoN 1.0.1 外显子拷贝数检测软件 https://github.com/RahmanTeam/DECoN CoNVaDING 1.2.0 外显子拷贝数检测软件 https://github.com/molgenis/CoNVaDING

GATK Best Practices:通过GATK4 docker运行processing-for-variant-discovery-gatk4.wdl

Run GATK Best Practices for data pre-processing by Cromwell/WDL

与GATK4正式发布的还有WDL(workflow description langaue,https://software.broadinstitute.org/wdl/),WDL将工作流程分为了workflow, task, call, command 和 output。

与以往GATK提供Best practice的PPT介绍不同,现在Broad提供的是Best practice(https://software.broadinstitute.org/gatk/best-practices/)的WDL文件。WDL文件运行通过cromwell运行,并且有json格式的参数输入文件指定WDL文件中流程所需要的参数。比如

sudo java -jar cromwell.jar run workflow.wdl --inputs workflow.inputs.json

我们只需要修改json文件中的参数就可以运行gatk4 Best Practices,而不需要自己去搭建流程,简化了工作量,也遵循了Broad提供的推荐设置和流程。本文只介绍突变检测前的序列比对和recalibrate这部分的GATK best practices,该流程生成了用于variant calling的bam文件。

1,文件准备

WDL文件和json文件 Broad在github上提供了进行突变检测call variant之前的数据处理data proceesing流程,见https://github.com/gatk-workflows/gatk4-data-processing 从github上,我们需要下载两个文件 processing-for-variant-discovery-gatk4.wdl (用于data pre-processing 的 pipeline) processing-for-variant-discovery-gatk4.hg38.wgs.inputs.json(指定WDL的参数文件)

ubam文件: 要求ubam文件中要有RG tag,经过排序sort之后,该文件可以通过picard将fastq文件转换得到

GATK resoure bundle,从中下载GATK需要的dbsnp文件,known site等文件 ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/ https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/

苏州--参加CBGC遗传咨询年会

有幸跟同事去蹭了中国遗传学协会遗传咨询分会CBGC在苏州召开的CBGC年会,也第一次来苏州。

关于会议

遗传学协会遗传咨询分会一致推动这中国的遗传咨询事业的发展,从标准、体系、人才培养、临床应用,各位专家都倾注心血做事。我是做数据分析的,会接触后续的解读方面的工作,想谈谈解读和咨询这方面的看法。

1,解读不完全等于咨询:解读是遗传咨询过程中的一部分,利用遗传学和临床医学的知识,提供疾病和突变的关系,遗传咨询还涉及诊断前和诊断后与医生和患者之间的沟通,帮助医生确定疾病类型,指导患者优生优育,诊断和预后等。

2,表型很重要:包括遗传咨询和解读,尽可能详细准确的记录患者的表型,搜集患者的家族史信息等其他信息,可以使工作更加有目的性,成功概率大大提高。

3,HPO很好用:基因组内的基因和突变有千千万,如果采用普通的突变筛选方式,比如频率,风险预测等方法,依然会有很多候选突变。根据HPO,可以让我们重点关注特定基因panel,大大减少了候选突变的数目。

4,生信和解读:生信为解读提供线索,解读需要了解生信的线索。生信要尽可能的利用各种信息,缩小候选突变的范围,传统的根据特定指标就将突变过滤的方式太生硬,现在机器学习、大数据技术的发展,为生信的分析提供了一种思路,那就是可以不再依靠单一维度进行hard filter,而且通过多维度建模进行过滤分析。解读应了解生信的基本知识,这样才能更好的读懂生信提供的文件,理解生信的思路,帮助解读更加精准。或许有更好的模型出现,可以预测疾病风险。

5,基因检测不是万能药:现阶段,遗传咨询更多的是涉及罕见病、遗传病的诊断、优生优育等。很多疾病在医院都已经确定疾病类型了,并且有对应的指南进行操作,这个时候再做基因检测,个人觉得是浪费金钱。就好比基因检测和生化检测同样是一种技术和手段,是为了服务医生和患者的,当用其他手段确诊之后,再做基因检测有点浪费。如果疾病在某个人的家族中成家族性发生,又没有找到致病原因,那么可以做基因检测试下。如果医生对某个罕见病不能确定类型,可以从基因的角度试下。但患者也应了解,并不是做了基因检测,就会有针对应的指导就能找到致病原因,精准的指导和现阶段科学的发展有关。 6,再谈关联性位点:当大家都唾弃儿童天赋的时候,难道通过几个关联性风险位点预测癌症风险的项目就是好的?那么请告诉我,在那么多癌症关联位点中,就选选5个点的癌症风险预测和选10个点的癌症风险预测谁更准确?乳腺癌的BRAC1和2的基因检测难道测的是这里面的关联性分析位点?呵呵了,遗传咨询中前提是遗传,撇开遗传谈关联性分析得到的风险位点,都是耍流氓。不要拿几个GWAS位点,就吹的跟算命一样。 7,中国人群数据库:生信分析和数据解读很大程度上依赖数据库的支持,建立中国人群数据库,可以降低VUS意义不明的突变。政府、高校、社会应有意识的建立这些数据库,尽可能的设计完善,搜集多维度的数据,后续才能挖掘出更有价值的东西。

解决 mount: unknown filesystem type ntfs

移动硬盘是ntfs格式的,服务器不能mount,报错 mount: unknown filesystem type ‘ntfs’

解决方法:安装 NTFS-3G,官网 https://www.tuxera.com/community/open-source-ntfs-3g

安装

1
2
3
4
5
6
wget -c https://tuxera.com/opensource/ntfs-3g_ntfsprogs-2017.3.23.tgz
tar -xvzf ntfs-3g_ntfsprogs-2017.3.23.tgz 
cd ntfs-3g_ntfsprogs-2017.3.23
./configure 
make 
sudo make install

挂载

1
mount -t ntfs-3g /dev/sd**  /target