Entrez Direct (EDirect)!!! Convert Biosample ID to Run ID

解决:提取Biosample的信息,将Biosample Id转换为SRA Run ID。

我有一个NCBI的biosmaple ID, 比如SAMN02324197,我不知道Bio project的情况下,我想知道他的SRR Run ID。最简单的办法是直接在SRA中搜这个biosample的ID,网页中Project,Run的信息都有了。

不过我如果有上百个biosample,来自不同的project,总不能一个一个的查吧。我先是在biostar上的这个https://www.biostars.org/p/97782/看到了EDirect可以查GSE的样本,我就在想能不能查sra的。

我试了一下这个命令,能检索到

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
> esearch -db sra -query "SAMN02324197"

<ENTREZ_DIRECT>
  <Db>sra</Db>
  <WebEnv>MCID_6243c437ec6f7a20fc0f452a</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>1</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

但是我想提取相关的信息呢,添加了efetch即可

False-positive genes with high frequency mutation

Mutational heterogeneity in cancer and the search for new cancer-associated genes

https://www.nature.com/articles/nature12213

After recognizing the problem of apparent false-positive findings, we reviewed the published literature and found that some of these potentially spurious genes have already been nominated as cancer-associated genes in recently published cancer genome studies: for example, LRP1B in glioblastoma and lung adenocarcinoma; CSMD3 in ovarian cancer; PCLO in DLBCL; MUC16 in lung squamous carcinoma11, breast cancer and DLBCL; MUC4 in melanoma; olfactory receptor OR2L13 in glioblastoma14; and TTN in breast cancer and other tumour types. We therefore set out to understand the source of the problem.

突变mutation signatures

拿到突变的数据之后,一般会先看除了进行突变注释,看突变所在的基因和造成的氨基酸变化,还会看具体的碱基变化类型,共96种,以三个碱基为统计单位,看三联核苷酸中间的碱基变化类型的个数,以C变为A为例(等同负链G变为T),NCN>NAN,N可以为任意碱基,所以有4*4=16种,所有情况为96种。

统计96种突变类型的具体数目,之后会进行突变的signature分析有三种:

  1. 与已知的cosmic signature进行比较,看哪些signature比重高
  2. 利用非负矩阵分解NFM找novel的signature
  3. 分析1和2之后,看novel的signature和已知的signature的相似性

突变的signature是内外部环境共同作用下造成的一些特定的变异特征,这些因素包括DNA修复或者复制缺陷,吸烟饮酒等等。

找cosmic的signature

利用R包deconstructSigs进行

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 假设你有一个数据框,包含了突变的信息,以包自带的sample.mut.ref为例
head(sample.mut.ref)

# Convert to deconstructSigs input,得到96碱基突变数据框
# 指定染色体位置、突变碱基和样本名所在的列名
sigs.input <- mut.to.sigs.input(mut.ref = sample.mut.ref, 
                                sample.id = "Sample", 
                                chr = "chr", 
                                pos = "pos", 
                                ref = "ref", 
                                alt = "alt")

# 提取样本的mutation signature
# 这里的signature.nature2013或者signatures.cosmic就是参考的signature,如果你有自己的signature数据,比如SomaticSignatures包找到的,也可以在这个地方指定,这样就计算的是提供的singature
sample_1 = whichSignatures(tumor.ref = sigs.input, 
                           signatures.ref = signatures.nature2013, # 参考signature 
                           sample.id = 1,  # 样本的barcode 
                           contexts.needed = TRUE,
                           tri.counts.method = 'default' # 是否进行normalzie
                           )
                           
sample_1$weights[1:3]

#  Signature.1A Signature.1B Signature.2
#1            0    0.1564832           0
 

找novel的signature

利用SomaticSignatures包进行,这里找到的novel signature可以作为参考的signature用deconstructSigs,注意96突变类型数据框的名应一致。

Prognostic versus predictive value of biomarkers

1 A prognostic biomarker provides information about the patients overall cancer outcome, regardless of therapy, whilst a predictive biomarker gives information about the effect of a therapeutic intervention. A predictive biomarker can be a target for therapy. REF: PMID 18396036, “Prognostic versus predictive value of biomarkers in oncology” 2 The term prognostic value refers to a genetic factor’s ability to project the natural history of disease in relation to another factor (such as treatment or environmental exposure or another genetic factor; henceforth referred to as treatment) by discriminating between good versus bad prognosis, thereby providing insights into whom to treat with novel modalities.

群体遗传学中基于Fst&Pi的选择消除分析

Fst衡量群体分化程度

1说明两个population是完全独立的。0说明两个population之间自由interbreeding。Fst值越大,说明genetic distance越远。值越低,说明大多数的genetic variation是发生在同一个population的。

Wright建议,实际研究中,F ST为0~0.05:群体间遗传分化很小,可以不考虑; F ST为0.05~0.15,群体间存在中等程度的遗传分化; F ST为0.15~0.25,群体间遗传分化较大; F ST为0.25以上,群体间有很大的遗传分化。

其中 代表 Weir & Cockerham 的 Fst。F 统计量反映了群体结构的变化,它受不同因素的影响,比如突变,遗传漂变,近亲交配,选择作用或 Wahlund 效应(指一个种群中由于亚种群的结构导致的异质性的下降)。在中性进化条件下,F 统计量的大小主要决定于遗传漂变和迁移等因素的影响,如果种群中一个等位基因因为对于特定生境的适合度较高而经历适应性选择,那么其频率的升高会增大种群分化水平,反映在 F 统计量上就是有较高的 Fst 值