利用biomaRt包下载HGMD公开版的突变位点

前面文章介绍了Ensembl的biomart,相信你对biomart应该有所了解了,在此再介绍一种方法,即通过R语言包biomaRt下载HGMD的数据。

HGMD的最新数据是需要购买授权才行,公开版信息不仅滞后,而且不能下载,不能得到基因组位置,在biostart上看到有人说Ensembl整合了HGMD的公开版,心想能获得公开版的数据也不错,于是采用biomaRt包下载。

各位不要高兴,最终的结果是,只得到了所有突变的基因组位置,未能下到具体的突变类型,以及与表型的关系。不过能下载基因组的位置,也算不错,结合对这些位置的注释,能获取不少信息。如果您对这些位置的利用有更多或者更好的想法,欢迎与我讨论。

1,安装biomaRt包

1
2
3
4
source("http://bioconductor.org/biocLite.R")
chooseCRANmirror()
chooseBioCmirror()
biocLite("biomaRt")

2,显示ensembl的biomart

1
2
3
4
library(biomaRt)
listEnsembl()
#如果要显示特定版本的,添加version参数
#listEnsembl(version=78)

安装BioMart Perl及利用BioMart Perl API下载数据

上篇介绍了如何利用ensembl的biomart服务下载ensembl gene id与NCBI entrez gene id的对应关系时,最后一步是保存result。biomart也提供通过biomart-perl,在本地通过perl脚本下载,并通过标准输出到终端上。biomart提供生成好的perl脚本,只需在选择好相关attribute和filter之后,点击中间上方的perl即可。

biomart-perl-api

如何获取Ensembl gene id和NCBI的gene id及与HGNC的对应关系

Ensembl和NCBI都是盛名的基因组研究机构,提供相关的基因组结构注释文件,比如gtf或者gff,但注释的id却不是统一的。比如基因ID,Ensembl有Ensembl gene id,NCBI有entrez gene id。不同的人用的基因注释文件来源不同,就需要进行转换。本文主要讲如何利用Ensembl的Biomart,下载对应关系。

Biomart整合了各种生物学注释数据,提供了易于操作的界面,在线提供批量下载,以加速科学研究。Ensembl已应用biomart提供相关服务。

The BioMart project provides free software and data services to the international scientific community in order to foster scientific collaboration and facilitate the scientific discovery process. The project adheres to the open source philosophy that promotes collaboration and code reuse.

Ensembl的biomart网址为http://asia.ensembl.org/index.html

第一步,选择相应的数据库

选择ensemble gene 83

step1-select-database

选择homo sapiens gene

step1-select-database

转录组分析新工具流程--HISAT2-stringtie-ballgown

一,HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts2)

HISAT2是一个对比对RNA-seq reads的快速灵敏的spliced alignment工具,HISAT2支持DNA和RNA比对。针对reads覆盖多个外显子,HISAT其包含两种索引:1,global FM索引,代表整个基因组,2,许许多多的local FM索引,每个索引代表~56,000bp,~55,000个local索引覆盖整个基因组。HISAT基于Bowtie2来处理大多数FM索引。心的索引scheme叫做 Hierarchical Graph FM index (HGFM)。HISAT也支持indel和paire end模式,并且支持多线程和SRA Toolkit。HISAT2官网提到HISAT2是HISAT和TopHat2继承,建议大家从HISAT和TopHat2迁移到HISAT2上来。

HISAT2的优势如图(图片来自HISAT2文章)

)

Illumina测序平台介绍

A short introdution of Illunima sequencing machine, especially for Hiseq.

Illumina测序平台

HiSeq 2000 HiSeq 2500 HiSeq 3000 HiSeq 4000
Output 500-600 GB 900-1000 GB 630-750 GB 1300-1500 GB
Reads passing Filter 1.7-2 billion 3-3.3 billion 2.1-2.5 billion 4.3-5 billion
Read Length 2 x 100bp 2 x 125bp 2 x 150bp 2 x 150bp
Quality Scores(Q30) >85% >80% >75% >75%
Run Time 11 days 6 days 3.5 days 3.5 days
Human Genomes per Run Up to 5 Up to 8 Up to 6 Up to 12
Exomes per Run Up to 72 Up to 120 Up to 90 Up to 180
Transcriptomes per Run Up to 40 Up to 67 Up to 50 Up to 100

hiseq-x-ten Illumina测序平台

Hiseq 2500

Hiseq 2500是Hiseq 2000的升级版。其主要的改进点是:Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq2000的每张Flowcell有8个Lane的模式。