JC-ELMER一个基于甲基化和转录组进行调控分析的R包

**ELMER (Enhancer Linking by Methylation/Expression Relationships)**是基于甲基化数据和转录组数据,分析远端甲基化位点调控基因表达的R包,包里也整合了TCGA的数据,也可以自己构建MAE对象,快速进行分析,识别差异甲基化的位点,与基因表达显著相关的甲基化位点和相关区域的motif。

DNA 甲基化可用于识别肿瘤和其他原发性疾病组织中转录增强子和其他顺式调控模块(CRM,cis-regulatory modules)的功能变化。 R/Bioconductor 包 ELMER(通过甲基化/表达关系增强连接)提供了一种系统方法,通过结合来自同一组样本的甲基化和基因表达数据来重建基因调控网络 (GRN,gene regulatory networks)。 ELMER 使用 CRM 的甲基化变化作为网络调控的基础,利用相关性分析将它们与上游主调控 (MR,master regulator) 转录因子和下游目标基因相关联。

ELMER 分析有 5 个主要步骤:

  • 识别 HM450K 或 EPIC 阵列上的远端probe(集成了注释,很方便的拉取远端probe的信息)
  • 识别两组之间 DNA 甲基化水平显着不同的远端probe(常规的甲基化差异分析)
  • 识别差异甲基化远端探针的假定靶基因(通关相关性分析,关联probe和gene)
  • 识别远端探针的富集motif,这些基序具有显着差异甲基化并与假定的目标基因相关(识别motif)。
  • 识别其表达与富集motif处的 DNA 甲基化相关的调节性 TF转录因子

ELMER能做的分析,参考手册的plot页面,例如https://www.bioconductor.org/packages/release/bioc/vignettes/ELMER/inst/doc/plots_scatter.html

校正混杂因素

混杂因素亦称混杂因子或外来因素,指与研究因素和研究疾病均有关,若在比较的人群组中分布不均,可以歪曲(掩盖或夸大)因素与疾病之间真正联系的因素。

校正变量的方法很简单,只需要校正的变量和要分析的变量共同纳入方程即可,但是最好在纳入方程前对于自变量能有一个初筛即根据资料的特点和文献复习的情况,只纳入可能有关的,对于初筛p值特别大的最好不要纳入方程以免方程出现不稳定。

混杂因素的影响以及校正可以参考这个post:https://www.r-bloggers.com/2020/09/correcting-for-confounded-variables-with-glms/

GEO数据库中的文件(SOFT)

除了用GEO2下载数据外,还可以自己直接下载。在看GSE数据集的时候,会看到这三个文件。

Download family Format Description
SOFT formatted family file(s) SOFT SOFT family files are text files that incorporate complete data and meta data for all Platform, Sample and Series records in the family
MINiML formatted family file(s) MINiML MINilML family files are XML files that incorporate complete data and metadata for all Platform, Sample and series records in the family
Series Matrix File(s) TXT Series matrix files are text files that include a tab-delimited value-matrix table generated from the VALUE' column of each Sample, headed by Sample and Series metadata. These files are suitable for loading into spreadsheet applications such as Excel. CAUTION: data are extracted directly from the original records with no consideration as to whether the values are directly comparable.

下数据当然可以用GEO2R,不一定每次都自己下载原始文件,但了解文件格式和内容是很重要的。SOFT formatted family file,MINiML formatted family file,Series Matrix File。以https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE68849为例。

SOFT formatted family file

1,Meta信息

这个文件的头数据记录数据集的编号,实验介绍,包含的样本,使用的平台,上传人等信息,和网页显示的对应。^开头表示entity实体,!表示entity的属性,#表示描述行。

用miRDeep2来定量miRNA丰度

一直用miRDeep2来定量miRNA。miRDeep2包含了bowtie比对和定量两步,比自己搭流程更方便一点。最近换了太服务器准备跑miRDeep2,发现要准备的文件还挺多,比如全基因组的bowtie索引,miRBase的序列等,都忘记当初准备的过程了,所以重新整理一下。

安装

我用conda 安装的

1
mamba install -c bioconda mirdeep2

文件准备

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
mkdir -p ~/ref/miRBase22
cd ~/ref/miRBase22

# 下载miRBase22
wget -c https://www.mirbase.org/ftp/CURRENT/mature.fa.gz
wget -c https://www.mirbase.org/ftp/CURRENT/hairpin.fa.gz

# 提取人has的序列
gunzip mature.fa.gz hairpin.fa.gz
extract_miRNAs.pl mature.fa hsa > mature_ref.fa
extract_miRNAs.pl hairpin.fa hsa > hairpin_ref.fa

# 如果需要预测novel miRNA,还需要下载人基因组序列
wget -c https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_43/GRCh38.p13.genome.fa.gz
gunzip GRCh38.p13.genome.fa.gz
bowtie-build GRCh38.p13.genome.fa GRCh38.p13.genome.fa

运行miRDeep2

这里没有预测新的novel miRNA,另外fastq应该是经过质控后的,不含adapter序列。

Science Advances | 群体遗传学揭示驯化对蜜蜂进化的重要影响

动植物驯化是人类改造自然界的形式之一,促进了由游猎社会向农业定居社会的变革,在人类社会早期的重要性与火的使用、工具的制造及语言的产生相并列。蜂蜜作为史前人类最主要的甜味物质来源,早在石器时代便有猎取的记载。尽管西方蜜蜂Apis mellifera在全球广泛商业化饲养,但由于难以实现完全可控的交配(蜂王和雄蜂在高空飞行交尾导致野生群和饲养群之间持续的基因交流),学界长期认为其未被完全驯化。虽则如此,若人为将蜂群迁出其自然分布区,便可摆脱野生群体这一干扰因素;尤其是在一种致命的体外寄生虫(狄斯瓦螨Varroa destructor)于上世纪后半叶扩张至全球大部分地区之后,西方蜜蜂野生种群已然踪迹难寻。因此,在进行起源与进化相关的群体遗传学分析时,如若将经过高度人工干预的物种样本视为野生群体,势必会导致结果出现偏差,这可能是近年间不断有新的西方蜜蜂系(lineage)和亚种被报道的重要原因。

扬州大学吉挺与吉林省养蜂科学研究所牛庆生、黑龙江省农业科学院牡丹江分院高夫超等团队合作,以我国独特地方资源东北黑蜂(Dongbei bee)为研究对象,系统阐释了人工驯养对物种进化的巨大影响,并在全球首次提出蜜蜂品种的概念。研究发表于Science子刊《Science Advances》,并作为亮点论文(Featured Article)在官网主页重点推介。期刊副总编辑(Deputy Editor)、美国哥伦比亚大学地球环境可持续研究中心主任Shahid Naeem教授评价称:“该研究利用现代基因组工具记录驯化,是一项值得关注的研究方式,我真的非常喜欢。”

图片来源:Science Advances官网