想用smrt analysis-2.3的过来看看

最近找smrt analysis 2.3的程序,真是太辛苦了。我不想用SMRT的图形界面,pacbio又把github上的相关项目obsolete了,tofu项目也没了,pbtranscript装起来各种错误,实在要放弃了,还好看到有人做了2.3的docker镜像。用最近的SMRT6.0中的isoseq3的同学可以忽略本文,isoseq3请移步https://github.com/PacificBiosciences/IsoSeq3/blob/master/README_v3.1.md

一步到位下载hg19基因组文件

hg19对应GRCh37,UCSC提供hg19的参考基因组下载。UCSC的下载地址在ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

需要经过下载每个染色体,然后解压合并成一个整个的基因组文件 ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

其实这样有点浪费时间,还要考虑合并的时候染色体的顺序是否按照1,2,3而不是1,10,11排下来的。目前我知道的最简单的办法的,从GATK bundle中下载。比如hg19整个基因组的文件。下面是一步到位的命令,包括了fasta,fai,dict文件。

1
wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg19/ucsc.hg19*

SpliceMap官网示例教程

SpliceMap是一个从头开始发现和比对splice junction的工具。它提供高敏感度并且支持任意长度RNA-seq 序列片段read长度. SpliceMap将RNA-seq reads比对到参考基因组上用于发现splicing junctions. 它至少拥有与当前技术条件下其它分析工具同等的灵敏度和特异性。

官网 http://web.stanford.edu/group/wonglab/SpliceMap/manual.html

下载 http://web.stanford.edu/group/wonglab/SpliceMap/download.html

示例教程 https://web.stanford.edu/group/wonglab/SpliceMap/tutorial.html

以官网SpliceMap 3.3.5.2 example (Linux-x86 64bit)为例,介绍如何用来自21号染色体的100k 条100bp的RNA reads寻找junction。

测试是否正常./bin/runSpliceMap,如果报错的话,需要到src文件夹运行 ./install.sh ../bin来安装SpliceMap,运行./install-bowtie.sh ../bin来安装

示例文件夹下面的结构

1
2
ls SpliceMap3352_example_linux-64
all.gene.refFlat.txt  bin  data  genome  INSTALL  LICENSE  output  run.cfg  src  temp

Pacbio三代测序Primary Analysis Data文件夹

三代测序很多年了,刚工作的时候在超算中心做过三代的拼接,没好好研究过之后就再也没接触过,现在要做三代的项目,从头学习,Primary Analysis Data为初步数据分析文件夹,类似下面的文件夹结构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
/path/to/secondary/storage/2420294/0011
├── Analysis_Results
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.bax.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.log
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.subreads.fasta
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.subreads.fastq
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.bax.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.log
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.subreads.fasta
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.subreads.fastq
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.bax.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.log
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.subreads.fasta
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.subreads.fastq
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.bas.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.sts.csv
│   └── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.sts.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.xfer.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.xfer.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.xfer.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.mcd.h5
└── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.metadata.xml

主要文件有

bas.h5文件和bax.h5文件

bas.h5和相关的bax.h5文件是PacBio@RS II初级分析(primary analysis)的主要输出文件,这些文件由设备产生到本地存储位置,作为后续SMRT分析软件进行alignment、consensus和variant分析的输入文件。 PacBio@RS II之前,单个bas.h5文件包含了所有测序数据,随着PacBio@RS II升级,通量和read长度都在增加,现在包含一个bas.h5和3个bax.h5文件(1-3.bax.h5)。bax.h5文件包含测序的base call的信息,bas.h5是三个bax.h5的重要指针。 用h5dupm -n [movie name].bas.h5命令看一下文件

1
2
3
4
5
6
FILE_CONTENTS {
 group      /
 group      /MultiPart
 dataset    /MultiPart/HoleLookup
 dataset    /MultiPart/Parts
 }