recount3超大规模可用转录组数据集
随着测序数据的积累,如何复用这些数据是一个挑战。recount项目,目前是recount3,共收集了8,679人和10,088小鼠的数据集,超过750,000个样本,经过统一处理(uniformly processed),得到gene或exon的表达以及exon-exon junction的数据。好多年前,我就了解过recount项目,很奇怪很少有介绍的。
一,recount对所有属于进行了uniformly processed,避免了分析流程的bias;
二,recount提供了超大规模的预处理之后的数据,直接拿来用,避免研究人员从原始数据分析;
三,recount提供了简单易用的工具,方便研究人员下载和处理数据。
方法1:下载TCGA-OV为例,检索过滤然后下载
|
|
方法2:直接选中数据集,生成下载code
在这个网站选中想要下载的数据集,https://jhubiostatistics.shinyapps.io/recount3-study-explorer/,网站下方会显示下载的code。注释不一定是26,还可以是RefSeq v109,Gencode v29等。
|
|
Kingfisher下载SRA数据
我知道一个SRP的编号,里面有我想要下载的数据,我想根据SRP编号快速下载数据,查到了Kingfisher这个工具。
https://github.com/wwood/kingfisher-download
文档:https://wwood.github.io/kingfisher-download/
安装:pip install kingfisher
主要有三个模块,get、extract、annotate
get
|
|
比对、定量多种类型小RNA
前面讲了用工具定量小RNA,但要么软件安装困难,要么维护不好给种错误,所以自己也搭建(抄)了一套流程。主要思路是bowtie比对,HTSeq定量。其实也是利用了HTSeq定量需要gff文件的特点,比对到全基因组后只需要准备好gtf文件即可。
bowtie和bowtie的index文件我已经有了,是在miRDeep2流程中定量miRNA准备的,本文主要介绍定量其他种类的非编码小RNA。
比对
|
|
SAM文件处理
|
|
gtf文件准备
snRNA,snoRNA等(来自gencode的注释)
|
|
tRNA
|
|
COMPSRA定量多种类型小RNA
COMPSRA: a COMprehensive Platform for Small RNA-seq data AnalySis
软件和数据准备
|
|
