标签归档:ID

Map NM ID to Gene Symbol

新年快乐,21年的第一篇文章。

以前写过映射ENSEMBL ID 和 NCBI ID, http://www.zxzyl.com/archives/736

日常分析中,我们也会经常遇到其他的ID mapping的工作,这种工作不是基因ID转基因ID,而是转录本的ID转基因ID。

如果用的是refGene的注释,最简单了,直接用下面的命令即可

mysql --user=genome -N --host=genome-mysql.cse.ucsc.edu -A -D hg38 -e "select name,name2 from refGene"

不过我也经常通过解析gtf文件获得,因为gtf有转本的ID,也有基因的symbol或者ID,只要有gtf文件就可以提取。本着不造轮子的精神,我利用的是现成的R包

 
library(plyranges)
gr <- read_gff("/path/to/gtf/or/gff") %>% select(transcript_id, gene_id, gene_name)
gr <- unique(data.frame(gr))

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

如何获取Ensembl gene id和NCBI的gene id及与HGNC的对应关系

Ensembl和NCBI都是盛名的基因组研究机构,提供相关的基因组结构注释文件,比如gtf或者gff,但注释的id却不是统一的。比如基因ID,Ensembl有Ensembl gene id,NCBI有entrez gene id。不同的人用的基因注释文件来源不同,就需要进行转换。本文主要讲如何利用Ensembl的Biomart,下载对应关系。

Biomart整合了各种生物学注释数据,提供了易于操作的界面,在线提供批量下载,以加速科学研究。Ensembl已应用biomart提供相关服务。

The BioMart project provides free software and data services to the international scientific community in order to foster scientific collaboration and facilitate the scientific discovery process. The project adheres to the open source philosophy that promotes collaboration and code reuse.

Ensembl的biomart网址为http://asia.ensembl.org/index.html

第一步,选择相应的数据库

选择ensemble gene 83

step1-select-database

选择homo sapiens gene

step1-select-database

继续阅读