Entrez Direct (EDirect)!!! Convert Biosample ID to Run ID

解决:提取Biosample的信息,将Biosample Id转换为SRA Run ID。

我有一个NCBI的biosmaple ID, 比如SAMN02324197,我不知道Bio project的情况下,我想知道他的SRR Run ID。最简单的办法是直接在SRA中搜这个biosample的ID,网页中Project,Run的信息都有了。

不过我如果有上百个biosample,来自不同的project,总不能一个一个的查吧。我先是在biostar上的这个https://www.biostars.org/p/97782/看到了EDirect可以查GSE的样本,我就在想能不能查sra的。

我试了一下这个命令,能检索到

1
2
3
4
5
6
7
8
9
> esearch -db sra -query "SAMN02324197"

<ENTREZ_DIRECT>
  <Db>sra</Db>
  <WebEnv>MCID_6243c437ec6f7a20fc0f452a</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>1</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

但是我想提取相关的信息呢,添加了efetch即可

MobaXterm SSHTunnel/v2ray + Switch Omega + Proxifier

这两年在大陆都是用学校的VPN访问外网,但最近VPN太烂太烂了,经常掉线。这怎么能忍,于是我想到了代理。花钱的事我又不干,我又有VPS,不如让VPS当作代理服务器。一共两种方式都可以实现:socks或v2ray。

(1)MobaXterm

我一直用mobaXterm的Portabl版本(https://mobaxterm.mobatek.net/),这几年走到哪都会把mobaXterm的文件夹同步过来,避免每次建立新的ssh。我也一直知道MobaXterm有个Tunneling的标签,于是就研究下了MobaXterm自带的。这个比较简单,我直接在mobaxterm上设置后,就建立了隧道。

主要是建立SSH隧道,需要一个境外的ssh帐号。

(2)V2ray

V2ray虽然高级,但是麻烦啊,还要安装还是配置。我参考的是https://www.v2fly.org/,本地用的是v2rayN (https://github.com/2dust/v2rayN)。

无论是1还是2,都是建立和远程代理服务器的连接,然后设定本地localhost的一个特定端口,通过本地的这个端口访问。

False-positive genes with high frequency mutation

Mutational heterogeneity in cancer and the search for new cancer-associated genes

https://www.nature.com/articles/nature12213

After recognizing the problem of apparent false-positive findings, we reviewed the published literature and found that some of these potentially spurious genes have already been nominated as cancer-associated genes in recently published cancer genome studies: for example, LRP1B in glioblastoma and lung adenocarcinoma; CSMD3 in ovarian cancer; PCLO in DLBCL; MUC16 in lung squamous carcinoma11, breast cancer and DLBCL; MUC4 in melanoma; olfactory receptor OR2L13 in glioblastoma14; and TTN in breast cancer and other tumour types. We therefore set out to understand the source of the problem.

突变mutation signatures

拿到突变的数据之后,一般会先看除了进行突变注释,看突变所在的基因和造成的氨基酸变化,还会看具体的碱基变化类型,共96种,以三个碱基为统计单位,看三联核苷酸中间的碱基变化类型的个数,以C变为A为例(等同负链G变为T),NCN>NAN,N可以为任意碱基,所以有4*4=16种,所有情况为96种。

统计96种突变类型的具体数目,之后会进行突变的signature分析有三种:

  1. 与已知的cosmic signature进行比较,看哪些signature比重高
  2. 利用非负矩阵分解NFM找novel的signature
  3. 分析1和2之后,看novel的signature和已知的signature的相似性

突变的signature是内外部环境共同作用下造成的一些特定的变异特征,这些因素包括DNA修复或者复制缺陷,吸烟饮酒等等。

找cosmic的signature

利用R包deconstructSigs进行

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 假设你有一个数据框,包含了突变的信息,以包自带的sample.mut.ref为例
head(sample.mut.ref)

# Convert to deconstructSigs input,得到96碱基突变数据框
# 指定染色体位置、突变碱基和样本名所在的列名
sigs.input <- mut.to.sigs.input(mut.ref = sample.mut.ref, 
                                sample.id = "Sample", 
                                chr = "chr", 
                                pos = "pos", 
                                ref = "ref", 
                                alt = "alt")

# 提取样本的mutation signature
# 这里的signature.nature2013或者signatures.cosmic就是参考的signature,如果你有自己的signature数据,比如SomaticSignatures包找到的,也可以在这个地方指定,这样就计算的是提供的singature
sample_1 = whichSignatures(tumor.ref = sigs.input, 
                           signatures.ref = signatures.nature2013, # 参考signature 
                           sample.id = 1,  # 样本的barcode 
                           contexts.needed = TRUE,
                           tri.counts.method = 'default' # 是否进行normalzie
                           )
                           
sample_1$weights[1:3]

#  Signature.1A Signature.1B Signature.2
#1            0    0.1564832           0
 

找novel的signature

利用SomaticSignatures包进行,这里找到的novel signature可以作为参考的signature用deconstructSigs,注意96突变类型数据框的名应一致。

Prognostic versus predictive value of biomarkers

1 A prognostic biomarker provides information about the patients overall cancer outcome, regardless of therapy, whilst a predictive biomarker gives information about the effect of a therapeutic intervention. A predictive biomarker can be a target for therapy. REF: PMID 18396036, “Prognostic versus predictive value of biomarkers in oncology” 2 The term prognostic value refers to a genetic factor’s ability to project the natural history of disease in relation to another factor (such as treatment or environmental exposure or another genetic factor; henceforth referred to as treatment) by discriminating between good versus bad prognosis, thereby providing insights into whom to treat with novel modalities.