COMPSRA定量多种类型小RNA
COMPSRA: a COMprehensive Platform for Small RNA-seq data AnalySis
软件和数据准备
|
|
COMPSRA: a COMprehensive Platform for Small RNA-seq data AnalySis
|
|
安装R包sf、lwgeom的时候,报错
|
|
要想办法让R在安装包的时候知道系统已经有了对应的library,我是先创建了一个sysR的conda环境,然后在虚拟环境下装对应的库,可能安多了-_-||
|
|
然后为了保险起见,我在bashrc中增加了LD的路径(我只是为了确保系统能找到library的路径,添件了感觉LD_LIBRARY_PATH,事后这个地方可以不用设置)。参见下面PS2,我git push遇到了问题,所以这里建议直接在Terminal里面export,不要写在bashrc中。
|
|
在conda安装library的时候,会安装R base。但我用的是Rstudio server下的R,也就是系统级别的R,我为了在虚拟环境下调用系统的R,把conda/env/sysR/bin/R删掉了(切记),这样找不到环境下的R时,就会调用系统的R(当然可以用系统R的绝对路径)。然后在R里面安装对应的包,并指定库的文件夹。
|
|
**ELMER (Enhancer Linking by Methylation/Expression Relationships)**是基于甲基化数据和转录组数据,分析远端甲基化位点调控基因表达的R包,包里也整合了TCGA的数据,也可以自己构建MAE对象,快速进行分析,识别差异甲基化的位点,与基因表达显著相关的甲基化位点和相关区域的motif。
DNA 甲基化可用于识别肿瘤和其他原发性疾病组织中转录增强子和其他顺式调控模块(CRM,cis-regulatory modules)的功能变化。 R/Bioconductor 包 ELMER(通过甲基化/表达关系增强连接)提供了一种系统方法,通过结合来自同一组样本的甲基化和基因表达数据来重建基因调控网络 (GRN,gene regulatory networks)。 ELMER 使用 CRM 的甲基化变化作为网络调控的基础,利用相关性分析将它们与上游主调控 (MR,master regulator) 转录因子和下游目标基因相关联。
ELMER 分析有 5 个主要步骤:
ELMER能做的分析,参考手册的plot页面,例如https://www.bioconductor.org/packages/release/bioc/vignettes/ELMER/inst/doc/plots_scatter.html
混杂因素亦称混杂因子或外来因素,指与研究因素和研究疾病均有关,若在比较的人群组中分布不均,可以歪曲(掩盖或夸大)因素与疾病之间真正联系的因素。
校正变量的方法很简单,只需要校正的变量和要分析的变量共同纳入方程即可,但是最好在纳入方程前对于自变量能有一个初筛即根据资料的特点和文献复习的情况,只纳入可能有关的,对于初筛p值特别大的最好不要纳入方程以免方程出现不稳定。
混杂因素的影响以及校正可以参考这个post:https://www.r-bloggers.com/2020/09/correcting-for-confounded-variables-with-glms/
除了用GEO2下载数据外,还可以自己直接下载。在看GSE数据集的时候,会看到这三个文件。
Download family | Format | Description |
---|---|---|
SOFT formatted family file(s) | SOFT | SOFT family files are text files that incorporate complete data and meta data for all Platform, Sample and Series records in the family |
MINiML formatted family file(s) | MINiML | MINilML family files are XML files that incorporate complete data and metadata for all Platform, Sample and series records in the family |
Series Matrix File(s) | TXT | Series matrix files are text files that include a tab-delimited value-matrix table generated from the VALUE' column of each Sample, headed by Sample and Series metadata. These files are suitable for loading into spreadsheet applications such as Excel. CAUTION: data are extracted directly from the original records with no consideration as to whether the values are directly comparable. |
下数据当然可以用GEO2R,不一定每次都自己下载原始文件,但了解文件格式和内容是很重要的。SOFT formatted family file,MINiML formatted family file,Series Matrix File。以https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE68849为例。
这个文件的头数据记录数据集的编号,实验介绍,包含的样本,使用的平台,上传人等信息,和网页显示的对应。^开头表示entity实体,!表示entity的属性,#表示描述行。