Calculate phastCon Score for a gene ---- 计算基因的phastCon平均分,判断基因保守型
文章目录
Calculate phastCon Score for a gene —- 计算基因的phastCon平均分,判断基因保守型
PhastCon socre is the score from 0 to 1 to show the conservation level.
A score showing the posterior probability that phastCons’s phylogenetic hidden Markov model (HMM) is in its most conserved state at that base position.
The phastCons scores represent probabilities of negative selection and range between 0 and 1.
Short highly-conserved regions and long moderately conserved regions can both obtain high scores.
也就是说如果某个位点或者一段序列的phastCon分值高的话,表示保守型较高。
1,下载phast score的wigFix格式文件(以19号染色体为测试)
|
|
wigFix格式是 fixed 的 Wiggle 格式,根据上面的前几行,应该能够看出该文件表示19号染色体,从60001位置开始,每一步step(base)的phastCon分值。
利用bedops,将wig转成bed文件
bedops的官网 https://bedops.readthedocs.io/en/latest/ , 转成bed文件便于利用bed工具进行处理。
|
|
如果需要合并的话,运行下面的命令即可,这里以chr19染色体为例,就不合并了。 bedops –everything chr*.bed > vertebrate.phastCons46.bed
将gtf文件分割成已基因为单位的gtf文件
gtf文件中只有chr19染色体的基因注释信息。
|
|
将gft文件转成bed文件
|
|
gtf2bed是前面文章中提到的,只要能将gtf转成bed就可。
利用bedtools工具计算每个序列的平均phastCon score
|
|
bedtools官网 bedtools.readthedocs.io ,mean表示计算平均分。结果如下,平均分越高越保守。
|
|
参考:
https://www.biostars.org/p/150152/
http://ccg.vital-it.ch/mga/mm9/phastcons/phastcons.html
####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#######################################################################################################################################
文章作者 zzx
上次更新 2016-11-04