安装R包sf、lwgeom等报错

安装R包sf、lwgeom的时候,报错

1
2
configure: error: proj_api.h not found in standard or given locations.
configure: error: libproj not found in standard or given locations.

要想办法让R在安装包的时候知道系统已经有了对应的library,我是先创建了一个sysR的conda环境,然后在虚拟环境下装对应的库,可能安多了-_-||

1
2
3
4
5
6
7
mamba install -c conda-forge gdal
mamba install -c conda-forge proj
mamba install -c conda-forge libgdal
mamba install -c r r-sf
mamba install -c conda-forge proj4
mamba install -c conda-forge r-lwgeom
mamba install -c conda-forge r-proj4

然后为了保险起见,我在bashrc中增加了LD的路径(我只是为了确保系统能找到library的路径,添件了感觉LD_LIBRARY_PATH,事后这个地方可以不用设置)。参见下面PS2,我git push遇到了问题,所以这里建议直接在Terminal里面export,不要写在bashrc中。

1
2
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/master/zhu_zhong_xu/miniconda3/lib/:/master/zhu_zhong_xu/miniconda3/envs/sysR/lib
export LD_LIBRARY_PATH

在conda安装library的时候,会安装R base。但我用的是Rstudio server下的R,也就是系统级别的R,我为了在虚拟环境下调用系统的R,把conda/env/sysR/bin/R删掉了(切记),这样找不到环境下的R时,就会调用系统的R(当然可以用系统R的绝对路径)。然后在R里面安装对应的包,并指定库的文件夹。

1
2
3
install.packages("sf", configure.args=c("--with-proj-include=~/conda/envs/sysR/include, --with-proj-lib=~/conda/envs/sysR/lib/"))

install.packages("lwgeom", configure.args=c("--with-proj-include=~/conda/envs/sysR/include, --with-proj-lib=~/conda/envs/sysR/lib/"))

JC-ELMER一个基于甲基化和转录组进行调控分析的R包

**ELMER (Enhancer Linking by Methylation/Expression Relationships)**是基于甲基化数据和转录组数据,分析远端甲基化位点调控基因表达的R包,包里也整合了TCGA的数据,也可以自己构建MAE对象,快速进行分析,识别差异甲基化的位点,与基因表达显著相关的甲基化位点和相关区域的motif。

DNA 甲基化可用于识别肿瘤和其他原发性疾病组织中转录增强子和其他顺式调控模块(CRM,cis-regulatory modules)的功能变化。 R/Bioconductor 包 ELMER(通过甲基化/表达关系增强连接)提供了一种系统方法,通过结合来自同一组样本的甲基化和基因表达数据来重建基因调控网络 (GRN,gene regulatory networks)。 ELMER 使用 CRM 的甲基化变化作为网络调控的基础,利用相关性分析将它们与上游主调控 (MR,master regulator) 转录因子和下游目标基因相关联。

ELMER 分析有 5 个主要步骤:

  • 识别 HM450K 或 EPIC 阵列上的远端probe(集成了注释,很方便的拉取远端probe的信息)
  • 识别两组之间 DNA 甲基化水平显着不同的远端probe(常规的甲基化差异分析)
  • 识别差异甲基化远端探针的假定靶基因(通关相关性分析,关联probe和gene)
  • 识别远端探针的富集motif,这些基序具有显着差异甲基化并与假定的目标基因相关(识别motif)。
  • 识别其表达与富集motif处的 DNA 甲基化相关的调节性 TF转录因子

ELMER能做的分析,参考手册的plot页面,例如https://www.bioconductor.org/packages/release/bioc/vignettes/ELMER/inst/doc/plots_scatter.html

校正混杂因素

混杂因素亦称混杂因子或外来因素,指与研究因素和研究疾病均有关,若在比较的人群组中分布不均,可以歪曲(掩盖或夸大)因素与疾病之间真正联系的因素。

校正变量的方法很简单,只需要校正的变量和要分析的变量共同纳入方程即可,但是最好在纳入方程前对于自变量能有一个初筛即根据资料的特点和文献复习的情况,只纳入可能有关的,对于初筛p值特别大的最好不要纳入方程以免方程出现不稳定。

混杂因素的影响以及校正可以参考这个post:https://www.r-bloggers.com/2020/09/correcting-for-confounded-variables-with-glms/

GEO数据库中的文件(SOFT)

除了用GEO2下载数据外,还可以自己直接下载。在看GSE数据集的时候,会看到这三个文件。

Download family Format Description
SOFT formatted family file(s) SOFT SOFT family files are text files that incorporate complete data and meta data for all Platform, Sample and Series records in the family
MINiML formatted family file(s) MINiML MINilML family files are XML files that incorporate complete data and metadata for all Platform, Sample and series records in the family
Series Matrix File(s) TXT Series matrix files are text files that include a tab-delimited value-matrix table generated from the VALUE' column of each Sample, headed by Sample and Series metadata. These files are suitable for loading into spreadsheet applications such as Excel. CAUTION: data are extracted directly from the original records with no consideration as to whether the values are directly comparable.

下数据当然可以用GEO2R,不一定每次都自己下载原始文件,但了解文件格式和内容是很重要的。SOFT formatted family file,MINiML formatted family file,Series Matrix File。以https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE68849为例。

SOFT formatted family file

1,Meta信息

这个文件的头数据记录数据集的编号,实验介绍,包含的样本,使用的平台,上传人等信息,和网页显示的对应。^开头表示entity实体,!表示entity的属性,#表示描述行。

用miRDeep2来定量miRNA丰度

一直用miRDeep2来定量miRNA。miRDeep2包含了bowtie比对和定量两步,比自己搭流程更方便一点。最近换了太服务器准备跑miRDeep2,发现要准备的文件还挺多,比如全基因组的bowtie索引,miRBase的序列等,都忘记当初准备的过程了,所以重新整理一下。

安装

我用conda 安装的

1
mamba install -c bioconda mirdeep2

文件准备

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
mkdir -p ~/ref/miRBase22
cd ~/ref/miRBase22

# 下载miRBase22
wget -c https://www.mirbase.org/ftp/CURRENT/mature.fa.gz
wget -c https://www.mirbase.org/ftp/CURRENT/hairpin.fa.gz

# 提取人has的序列
gunzip mature.fa.gz hairpin.fa.gz
extract_miRNAs.pl mature.fa hsa > mature_ref.fa
extract_miRNAs.pl hairpin.fa hsa > hairpin_ref.fa

# 如果需要预测novel miRNA,还需要下载人基因组序列
wget -c https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_43/GRCh38.p13.genome.fa.gz
gunzip GRCh38.p13.genome.fa.gz
bowtie-build GRCh38.p13.genome.fa GRCh38.p13.genome.fa

运行miRDeep2

这里没有预测新的novel miRNA,另外fastq应该是经过质控后的,不含adapter序列。