如何获取Ensembl gene id和NCBI的gene id及与HGNC的对应关系

Ensembl和NCBI都是盛名的基因组研究机构,提供相关的基因组结构注释文件,比如gtf或者gff,但注释的id却不是统一的。比如基因ID,Ensembl有Ensembl gene id,NCBI有entrez gene id。不同的人用的基因注释文件来源不同,就需要进行转换。本文主要讲如何利用Ensembl的Biomart,下载对应关系。

Biomart整合了各种生物学注释数据,提供了易于操作的界面,在线提供批量下载,以加速科学研究。Ensembl已应用biomart提供相关服务。

The BioMart project provides free software and data services to the international scientific community in order to foster scientific collaboration and facilitate the scientific discovery process. The project adheres to the open source philosophy that promotes collaboration and code reuse.

Ensembl的biomart网址为http://asia.ensembl.org/index.html

第一步,选择相应的数据库

选择ensemble gene 83

step1-select-database

选择homo sapiens gene

step1-select-database

转录组分析新工具流程--HISAT2-stringtie-ballgown

一,HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts2)

HISAT2是一个对比对RNA-seq reads的快速灵敏的spliced alignment工具,HISAT2支持DNA和RNA比对。针对reads覆盖多个外显子,HISAT其包含两种索引:1,global FM索引,代表整个基因组,2,许许多多的local FM索引,每个索引代表~56,000bp,~55,000个local索引覆盖整个基因组。HISAT基于Bowtie2来处理大多数FM索引。心的索引scheme叫做 Hierarchical Graph FM index (HGFM)。HISAT也支持indel和paire end模式,并且支持多线程和SRA Toolkit。HISAT2官网提到HISAT2是HISAT和TopHat2继承,建议大家从HISAT和TopHat2迁移到HISAT2上来。

HISAT2的优势如图(图片来自HISAT2文章)

)

Illumina测序平台介绍

A short introdution of Illunima sequencing machine, especially for Hiseq.

Illumina测序平台

HiSeq 2000 HiSeq 2500 HiSeq 3000 HiSeq 4000
Output 500-600 GB 900-1000 GB 630-750 GB 1300-1500 GB
Reads passing Filter 1.7-2 billion 3-3.3 billion 2.1-2.5 billion 4.3-5 billion
Read Length 2 x 100bp 2 x 125bp 2 x 150bp 2 x 150bp
Quality Scores(Q30) >85% >80% >75% >75%
Run Time 11 days 6 days 3.5 days 3.5 days
Human Genomes per Run Up to 5 Up to 8 Up to 6 Up to 12
Exomes per Run Up to 72 Up to 120 Up to 90 Up to 180
Transcriptomes per Run Up to 40 Up to 67 Up to 50 Up to 100

hiseq-x-ten Illumina测序平台

Hiseq 2500

Hiseq 2500是Hiseq 2000的升级版。其主要的改进点是:Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq2000的每张Flowcell有8个Lane的模式。

Varscan copynumber Recommended Workflow---has beed tested

官网提供的推荐流程错误非常多(年代久远??),迄今还没有人详细介绍正确的Varscan copynumber Recommended Workflow。本文改正了官网的recommend workflow,提供正确的pipeline供大家一起学习(我相信我是第一个提供完整流程的哈)。本流程的搭建和解决方案来自网络搜索,感谢万能的网络。本文 没有对命令和输出格式做过多说明,请参阅官方文档。

varscan可以通过配对的肿瘤和组织样本,看覆盖到同一区域内的reads在肿瘤和组织样本中的差异,来检测肿瘤组织中的CNV。

Varscan提供的命令

java -jar varscan.jar copynumber $normal.pileup $tumor.pileup  out
或
java -jar varscan.jar copynumber $normal-tumor.mpileup  --output-file out

结果如下:

varscan-copynumber-varscan-output

但是该结果只说明了某段区域内,肿瘤和组织depth的差异,区域相连,并没有指明哪个区域是CNV区域,发生了deletion还是insertion等。于是varscan又提供了Recommended Workflow,据说是别人提供给varscan作者的,bug百出惨目忍住。本文会在下文提供正确的流程。在此先提下Recommended Workflow的原理。

原理:

都知道在高通量测序之前,用的是生物芯片。芯片上的每个点都是基因组上的一个marker,通过检测肿瘤样本和组织样本中同一marker荧光强度比值,找到染色体上比值发生改变的位点,然后推荐CNV区域。其中有一种算法,叫做circular binary segment CBS环状二元分割算法(恕我愚笨,不了解这种算法)。R语言包DNAcopy利用CBS和每个marker的lg2ratio,判断那些区域是CNV。那高通量测序varscan的结果如何利用CBS算法呢。从varscan的输出结果可以看出,varscan提供了一定区域内的lg2ratio,Recommended Workflow就将这个区域的起始位点当作这个区域的marker,并与该区域的lg2ratio对应,于是便和芯片检测CNV的方法对接上去了。