连锁不平衡LD(linkage disequilibrium)

总结连锁不平衡的一些知识,内容来源(copy)网络。

1、LD的概念

连锁不平衡(linkage disequilibrium, LD)分析是群体遗传学研究中常见的分析内容,当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,称这两个座位处于连锁不平衡状态。

连锁不平衡性是指在两个或者多个位点上的非随机关联性,这些位点既可能在同一条染色体上,也可以在不同的染色体上。连锁不平衡性也被称作配子水平的不平衡性或配子不平衡性。从另一个角度讲,连锁不平衡是等位基因或者遗传标记在一个人群中表现出高于或低于由等位基因的随机频率而预测的单模标本的频率。连锁是指染色体上的两个或者多个位点进行有限的组合,而连锁不平衡性不等同于连锁。连锁不平衡的数量取决于观察和预期的位点频率的差异。对于那些重组后位点或者基因型的频率等于预期的群体我们称其为连锁平衡。 连锁不平衡的程度取决于多方面的因素,包括遗传连锁,选择,和重组的概率,遗传漂变,选型交配以及群体结构,都会影响LD的变化。

上图展示了由Haploview软件生成的连锁不平衡块Linkage disequilibrium (LD) block,LD用 D′ statistic衡量,颜色从蓝到红表示LD的高低(https://doi.org/10.1038/jhg.2016.40)。

VECTOR_ELT() can only be applied to a 'list', not a 'NULL'

用R画图的时候,报错,但其实代码是没问题的

1
2
3
4
5
6
Error in grid.Call(C_convert, x, as.integer(whatfrom), as.integer(whatto),  : 
VECTOR_ELT() can only be applied to a 'list', not a 'NULL'
                   
Error in grid.newpage() : 
  could not open file '/tmp/RtmpCWAOi6/5413447bbbfc43748734b70eb6a8f054.png'
Error in file(out, "wt") : cannot open the connection

升级fs包就行了。

1
install.packages("fs")

可能升级fs包适合我的例子。如果你的问题是下面的,你可能仅仅需要拉大Rstudio显示图片的面板,重新画图即可

1
2
3
4
viewport has zero dimension(s)
In addition: warning messages:
1: Transformation introduced infinite values in continuous x-axis
2: Transformation introduced infinite values in continuous x-axis

CTRP数据库中的AUC值

背景:

评价药物敏感性,分两种,如上图,一种是IC50(半数抑制浓度,half-maximal inhibitory concentration),IC50表示在抑制率/功效为50%(最大抑制率/功效为100%)时的浓度,见蓝线。EC50 (半数效应浓度,Half maximal effective concentration)为最大抑制率/功效一半时的浓度,见红线。但是EC50 对于低振幅曲线(绿线)是不明确的,而且IC50 或 EC50 不能从不完整的剂量反应曲线中得到(黑线)。另外就是常用AUC来评价,AUC是剂量反应曲线下面积。

但在分析的时候,对CTRP的AUC值非常迷惑,因为CTRP的AUC值大部分都大于1,现在是明白了。

CTRP的AUC值:

  • 确实是曲线下面积,但是和模型的AUC不一样的地方是,x轴是浓度,并不是临床模型常引用的0到1的假阳性率,这样在算面积的时候,AUC最大值并不是1
  • AUC越大,说明对药物越不敏感

临床模型的决策曲线分析解读

朋友问如何解读决策曲线分析,正好我也顺便学习一下,看到这篇文章[A simple, step-by-step guide to interpreting decision curve analysis](A simple, step-by-step guide to interpreting decision curve analysis),这篇文章引用也100多了。

[TOC]

Abstract

背景

决策曲线分析是一种评估预测模型和诊断测试的方法,该方法在 2006 年的出版物中引入。 现在文献中普遍报道了决策曲线,但对其含义的理解仍然存在广泛的误解和混淆。

评论总结

在本文中,我们一步一步的解读决策曲线分析,并回答了有关该方法的一些常见问题。 我们认为,解释决策曲线的许多困难可以通过将 y 轴重新标记为“收益”并将 x 轴重新标记为“偏好”来解决。 如果模型或测试在一系列临床合理偏好中具有最高水平的益处,则可以推荐用于临床使用。

结论

如果读者和作者遵循一些简单的指导方针,决策曲线很容易理解。

引言

决策曲线分析是一种评估预测模型和诊断测试的方法,由 Vickers 和 Elkin 在 2006 年的 Medical Decision Making刊物上提出。该方法试图克服传统统计指标的局限性,例如区分和校准,因为它们不能直接提供临床价值信息以及完整决策分析方法,这些方法不适用于常规生物统计学实践。

简而言之,与治疗所有患者或不治疗患者的默认策略相比,决策曲线分析计算一个或多个预测模型或诊断测试的临床“净收益(net benefit)”。净收益是基于一系列阈值概率(0-1)计算的。

阈值概率(threshold probability)定义为需要进一步干预的疾病的最小概率,我们可以理解为风险概率。

净收益(net benefit) = sensitivity × prevalence – (1 – specificity) × (1 – prevalence) × w (这个公式多了prevalence)

对于给出疾病预测概率 p̂ 的预测模型,在特定的pt阈值下,w是比值比odds,等于p̂/(1-p̂),阳性样本的 p̂ ≥ pt,进而可以计算灵敏度和特异性。净收益不同于判别和校准等准确度指标,因为它包含了基于模型或测试做出的决策的后果。有关决策曲线分析背景的更多信息,参阅 Vickers 等人。

06年文章中简单的公式没有prevalence,如下

蛋白延伸(extension)变异的hgvs命名

翻译https://varnomen.hgvs.org/recommendations/protein/variant/extension/

这个突变类型不常见,hgvs的命名挺有意思的

延伸突变定义

序列变化导致参考氨基酸序列在N或者C端多了一个或者多个氨基酸

描述

p.Met1ext-5

N端格式: “prefix”“Met1”“ext”“position_new_initiation_site”, e.g. p.Met1ext-5

“prefix” = 前缀,用p.表示 “Met1” = 正常的翻译起始位点Met1 “ext” = 变化类型是延伸ext “position_new_initiation_site” = 上游新的翻译起始位点-5