新年快乐,21年的第一篇文章。
以前写过映射ENSEMBL ID 和 NCBI ID, http://www.zxzyl.com/archives/736。
日常分析中,我们也会经常遇到其他的ID mapping的工作,这种工作不是基因ID转基因ID,而是转录本的ID转基因ID。
如果用的是refGene的注释,最简单了,直接用下面的命令即可
mysql --user=genome -N --host=genome-mysql.cse.ucsc.edu -A -D hg38 -e "select name,name2 from refGene"
不过我也经常通过解析gtf文件获得,因为gtf有转本的ID,也有基因的symbol或者ID,只要有gtf文件就可以提取。本着不造轮子的精神,我利用的是现成的R包
library(plyranges) gr <- read_gff("/path/to/gtf/or/gff") %>% select(transcript_id, gene_id, gene_name) gr <- unique(data.frame(gr))
#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################