CTRP数据库中的AUC值

背景:

评价药物敏感性,分两种,如上图,一种是IC50(半数抑制浓度,half-maximal inhibitory concentration),IC50表示在抑制率/功效为50%(最大抑制率/功效为100%)时的浓度,见蓝线。EC50 (半数效应浓度,Half maximal effective concentration)为最大抑制率/功效一半时的浓度,见红线。但是EC50 对于低振幅曲线(绿线)是不明确的,而且IC50 或 EC50 不能从不完整的剂量反应曲线中得到(黑线)。另外就是常用AUC来评价,AUC是剂量反应曲线下面积。

但在分析的时候,对CTRP的AUC值非常迷惑,因为CTRP的AUC值大部分都大于1,现在是明白了。

CTRP的AUC值:

  • 确实是曲线下面积,但是和模型的AUC不一样的地方是,x轴是浓度,并不是临床模型常引用的0到1的假阳性率,这样在算面积的时候,AUC最大值并不是1
  • AUC越大,说明对药物越不敏感

临床模型的决策曲线分析解读

朋友问如何解读决策曲线分析,正好我也顺便学习一下,看到这篇文章[A simple, step-by-step guide to interpreting decision curve analysis](A simple, step-by-step guide to interpreting decision curve analysis),这篇文章引用也100多了。

[TOC]

Abstract

背景

决策曲线分析是一种评估预测模型和诊断测试的方法,该方法在 2006 年的出版物中引入。 现在文献中普遍报道了决策曲线,但对其含义的理解仍然存在广泛的误解和混淆。

评论总结

在本文中,我们一步一步的解读决策曲线分析,并回答了有关该方法的一些常见问题。 我们认为,解释决策曲线的许多困难可以通过将 y 轴重新标记为“收益”并将 x 轴重新标记为“偏好”来解决。 如果模型或测试在一系列临床合理偏好中具有最高水平的益处,则可以推荐用于临床使用。

结论

如果读者和作者遵循一些简单的指导方针,决策曲线很容易理解。

引言

决策曲线分析是一种评估预测模型和诊断测试的方法,由 Vickers 和 Elkin 在 2006 年的 Medical Decision Making刊物上提出。该方法试图克服传统统计指标的局限性,例如区分和校准,因为它们不能直接提供临床价值信息以及完整决策分析方法,这些方法不适用于常规生物统计学实践。

简而言之,与治疗所有患者或不治疗患者的默认策略相比,决策曲线分析计算一个或多个预测模型或诊断测试的临床“净收益(net benefit)”。净收益是基于一系列阈值概率(0-1)计算的。

阈值概率(threshold probability)定义为需要进一步干预的疾病的最小概率,我们可以理解为风险概率。

净收益(net benefit) = sensitivity × prevalence – (1 – specificity) × (1 – prevalence) × w (这个公式多了prevalence)

对于给出疾病预测概率 p̂ 的预测模型,在特定的pt阈值下,w是比值比odds,等于p̂/(1-p̂),阳性样本的 p̂ ≥ pt,进而可以计算灵敏度和特异性。净收益不同于判别和校准等准确度指标,因为它包含了基于模型或测试做出的决策的后果。有关决策曲线分析背景的更多信息,参阅 Vickers 等人。

06年文章中简单的公式没有prevalence,如下

蛋白延伸(extension)变异的hgvs命名

翻译https://varnomen.hgvs.org/recommendations/protein/variant/extension/

这个突变类型不常见,hgvs的命名挺有意思的

延伸突变定义

序列变化导致参考氨基酸序列在N或者C端多了一个或者多个氨基酸

描述

p.Met1ext-5

N端格式: “prefix”“Met1”“ext”“position_new_initiation_site”, e.g. p.Met1ext-5

“prefix” = 前缀,用p.表示 “Met1” = 正常的翻译起始位点Met1 “ext” = 变化类型是延伸ext “position_new_initiation_site” = 上游新的翻译起始位点-5

Entrez Direct (EDirect)!!! Convert Biosample ID to Run ID

解决:提取Biosample的信息,将Biosample Id转换为SRA Run ID。

我有一个NCBI的biosmaple ID, 比如SAMN02324197,我不知道Bio project的情况下,我想知道他的SRR Run ID。最简单的办法是直接在SRA中搜这个biosample的ID,网页中Project,Run的信息都有了。

不过我如果有上百个biosample,来自不同的project,总不能一个一个的查吧。我先是在biostar上的这个https://www.biostars.org/p/97782/看到了EDirect可以查GSE的样本,我就在想能不能查sra的。

我试了一下这个命令,能检索到

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
> esearch -db sra -query "SAMN02324197"

<ENTREZ_DIRECT>
  <Db>sra</Db>
  <WebEnv>MCID_6243c437ec6f7a20fc0f452a</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>1</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

但是我想提取相关的信息呢,添加了efetch即可

False-positive genes with high frequency mutation

Mutational heterogeneity in cancer and the search for new cancer-associated genes

https://www.nature.com/articles/nature12213

After recognizing the problem of apparent false-positive findings, we reviewed the published literature and found that some of these potentially spurious genes have already been nominated as cancer-associated genes in recently published cancer genome studies: for example, LRP1B in glioblastoma and lung adenocarcinoma; CSMD3 in ovarian cancer; PCLO in DLBCL; MUC16 in lung squamous carcinoma11, breast cancer and DLBCL; MUC4 in melanoma; olfactory receptor OR2L13 in glioblastoma14; and TTN in breast cancer and other tumour types. We therefore set out to understand the source of the problem.