pTMB (Persistent mutation burden)

The pTMB was defined as the number of mutations in either the multi-copy or single-copy category.

https://www.nature.com/articles/s41591-022-02163-w

feautredImage

肿瘤突变负荷TMB经常用在预测免疫治疗反应,但效果有时候并不是很好。这篇文章的作者评估了不太可能发生缺失loss的基因组区域中的突变情况,涉及31 种肿瘤类型 (n = 9,242) 和 8 个接受免疫治疗的队列 (n = 524)。作者发现单拷贝区域中的突变和每个细胞中存在多个拷贝的突变构成了持续性肿瘤突变负担 (persistent tumor mutation burdedn,pTMB),并且与免疫治疗反应有关。 在免疫治疗的选择性压力下,肿瘤进化过程中保留了持persistent mutation,并且具有高 pTMB的肿瘤的有更多炎症相关微环境。 pTMB的存在,阻碍癌细胞克服的进化瓶颈,因此可能在免疫治疗的背景下推动持续的免疫肿瘤控制。

R语言中phyper做超几何检验

phyper

基因集分析有两种,一种是GSEA(gene set enrichment analysis),需要根据所有基因logFC排序,根据rank来算enrichment score,还有一种是ORA(Over-representation analysis),看选出的显著的基因集是否和已知的基因集显著相关。对于ORA分析,常用超几何分布来检验。在R语言中,用的函数是phyper。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
############## 以基因集分析为例,超几何检验看通过差异筛选出的基因集genes是否和已知的某个基因集gene_set显著相关
# x: 研究者筛选出的基因集genes和待检验的已知基因集之间的重叠的基因数目gene_set----> length(intersect(genes, gene_set))
# m: 已知基因集内的基因数目---->length(gene_set)
# n: 背景基因集减去m---->length(universe) - n
# k: 研究者筛选出的差异基因的数目length(genes)
############## 以挑选红球和黑球为例,看挑选的球中是否富集红球
# 有一堆球,红球有n_red个,黑球有n_black个,总共为n个(n_red + n_black),拿出来n_out个球,其中有n_red_out个红球
# x: n_red_out拿出来的球中的红球数
# m: n_red红球数
# n: n - n_red = n_black黑球数
# k: n_out拿出来的球
phyper(x - 1, m, n, k, lower.tail = FALSE)

$$ phyper(…, lower.tail = FALSE)计算的是Pr(X>x)在计算p值时,x-1计算的才是Pr(X≥x) $$

Ensemble Learning

机器学习的目标是做预测,但有时候单个预测模型并不一定有很好性能。集成学习的思想是,把多个弱机器学习模型集成在一起,不同的学习方法之间可能相互补充,进而降低预测的错误率,提高最终的预测性能。集成学习在各个规模的数据集上都有很好的策略结果。

feautredImage

常见的集成方法有Bagging,Boosting,Stacking,Voting和Blending。

又可以分为两大类:(1)序列集成方法:其中参与训练的基础学习器按照顺序生成(Boost)。序列方法的原理是利用基础学习器之间的依赖关系。通过对之前训练中错误标记的样本赋值较高的权重,可以提高整体的预测效果。(2)并行集成方法,其中参与训练的基础学习器并行生成(如经典的Random Forest)。并行方法的原理是利用基础学习器之间的独立性,通过平均可以显著降低错误。