群体遗传学中基于Fst&Pi的选择消除分析

Fst衡量群体分化程度

1说明两个population是完全独立的。0说明两个population之间自由interbreeding。Fst值越大,说明genetic distance越远。值越低,说明大多数的genetic variation是发生在同一个population的。

Wright建议,实际研究中,F ST为0~0.05:群体间遗传分化很小,可以不考虑;
F ST为0.05~0.15,群体间存在中等程度的遗传分化;
F ST为0.15~0.25,群体间遗传分化较大;
F ST为0.25以上,群体间有很大的遗传分化。

其中 代表 Weir & Cockerham 的 Fst。F 统计量反映了群体结构的变化,它受不同因素的影响,比如突变,遗传漂变,近亲交配,选择作用或 Wahlund 效应(指一个种群中由于亚种群的结构导致的异质性的下降)。在中性进化条件下,F 统计量的大小主要决定于遗传漂变和迁移等因素的影响,如果种群中一个等位基因因为对于特定生境的适合度较高而经历适应性选择,那么其频率的升高会增大种群分化水平,反映在 F 统计量上就是有较高的 Fst 值

vcftools就可以做

# 如果是vcf.gz请用--gzvcf
vcftools --vcf pop.vcf --weir-fst-pop Pop1.txt --weir-fst-pop Pop2.txt --out P1vsP2.Fst 

$ head -5 P1vsP2.Fst.weir.fst
CHROM   POS     WEIR_AND_COCKERHAM_FST
chr1     1216    -0.155606
chr1     1226    -0.0884707
chr1     1480    0.0448135
chr1     1481    0.0275202

# 默认基于位点进行统计,如果需要滑窗统计,可以添加--fst-window-size和--fst-window-step选项

$ head -5 P1vsp2.Fst.windowed.weir.fst
CHROM   BIN_START       BIN_END N_VARIANTS      WEIGHTED_FST    MEAN_FST
chr1     1       40000   79      0.178739        0.0986989
chr1     20001   60000   84      0.21267 0.143746
chr1     40001   80000   118     0.315279        0.19392
chr1     60001   100000  147     0.361274        0.215205

Pi衡量遗传多样性

Pi主要用来衡量nucleotide divergency

# vcftools同样可以计算pi值,如果是vcf.gz请用--gzvcf
vcftools --vcf pop1.vcf --site-pi --out P1.Pi
vcftools --vcf pop2.vcf --site-pi --out P2.Pi

$ head -5 P1.Pi.sites.pi
CHROM   POS     PI
chr1     1216    0.5
chr1     1226    0.6
chr1     1480    0
chr1     1481    0

# 如果需要滑窗处理可以添加--window-pi和--window-pi-step选项

$ head -5 P1.Pi.windowed.pi
CHROM   BIN_START       BIN_END N_VARIANTS      PI
chr1     1       40000   69      0.000217064
chr1     20001   60000   74      0.000241674
chr1     40001   80000   91      0.000350297
chr1     60001   100000  111     0.000413938

联合分析

Fst & Pi 已被证实是一种很有效力地检测选择消除区域的方法,特别是在挖掘与生存环境密切相关的功能区时,往往可以得到较强的选择信号,二者共同筛选较强的选择信号(比如Fst和Pi都处于Top 5%),便于目标基因的筛选。文章中常画的图是一个二维的散点图,如果要研究群体1和群体2,横坐标是log2(Pi Ratio)=log2(P1.Pi/P2.Pi),纵坐标为 P1 vs P2的Fst值,并且把对应的频率分布图画在右方和上方,右上方的点是受选择的区域。

有了区域之后,可以进一步做富集分析或者验证候选基因。

参考

https://vcftools.github.io/man_latest.html
https://blog.csdn.net/q623928815/article/details/78627610

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据