群体遗传学中基于Fst&Pi的选择消除分析

Fst衡量群体分化程度

1说明两个population是完全独立的。0说明两个population之间自由interbreeding。Fst值越大,说明genetic distance越远。值越低,说明大多数的genetic variation是发生在同一个population的。

Wright建议,实际研究中,F ST为0~0.05:群体间遗传分化很小,可以不考虑;
F ST为0.05~0.15,群体间存在中等程度的遗传分化;
F ST为0.15~0.25,群体间遗传分化较大;
F ST为0.25以上,群体间有很大的遗传分化。

其中 代表 Weir & Cockerham 的 Fst。F 统计量反映了群体结构的变化,它受不同因素的影响,比如突变,遗传漂变,近亲交配,选择作用或 Wahlund 效应(指一个种群中由于亚种群的结构导致的异质性的下降)。在中性进化条件下,F 统计量的大小主要决定于遗传漂变和迁移等因素的影响,如果种群中一个等位基因因为对于特定生境的适合度较高而经历适应性选择,那么其频率的升高会增大种群分化水平,反映在 F 统计量上就是有较高的 Fst 值

vcftools就可以做

# 如果是vcf.gz请用--gzvcf
vcftools --vcf pop.vcf --weir-fst-pop Pop1.txt --weir-fst-pop Pop2.txt --out P1vsP2.Fst 

$ head -5 P1vsP2.Fst.weir.fst
CHROM   POS     WEIR_AND_COCKERHAM_FST
chr1     1216    -0.155606
chr1     1226    -0.0884707
chr1     1480    0.0448135
chr1     1481    0.0275202

# 默认基于位点进行统计,如果需要滑窗统计,可以添加--fst-window-size和--fst-window-step选项

$ head -5 P1vsp2.Fst.windowed.weir.fst
CHROM   BIN_START       BIN_END N_VARIANTS      WEIGHTED_FST    MEAN_FST
chr1     1       40000   79      0.178739        0.0986989
chr1     20001   60000   84      0.21267 0.143746
chr1     40001   80000   118     0.315279        0.19392
chr1     60001   100000  147     0.361274        0.215205

Pi衡量遗传多样性

继续阅读

肿瘤免疫表型-cold (excluded, desert) and hot

根据免疫状态,肿瘤可以分为hot,肿瘤内外富集免疫浸润淋巴细胞,有明显的免疫浸润性;excluded,免疫细胞没有浸润到肿瘤内部而富集在肿瘤外部,desert,肿瘤不怎么有免疫浸润细胞。

理论上讲,hot tumor更能从免疫治疗获得收益。

Tumor immune phenotypes

继续阅读

C++14 standard requested but CXX14 is not defined

在安装R包的时候遇到报错,C++14 standard requested but CXX14 is not defined

查了很多办法,刚开始是根据https://github.com/stan-dev/rstan/issues/892修改.R下面的Makevars,

但是包另外一个错g++: error: unrecognized command line option ‘-std=c++14’

于是继续查到c++1y这个问题,但依然没有解决问题。

复盘了一下,感觉是gcc的问题,所以升级了最新的gcc

# 系统是CentOS
sudo yum install centos-release-scl
sudo yum install devtoolset-10
scl enable devtoolset-10 bash

但是装包的时候新版的gcc依然不能别识别,所以修改Makevars,最终用了如下的配置,重点是指定了新版的g++和c++的路径,这样问题就解决了

MAKEFLAGS = -j18

## C++ flags
CXX=g++
CXX11=g++
CXX14=/opt/rh/devtoolset-9/root/usr/bin/g++
CXX17=g++

CXXFLAGS=-O3 -march=native -Wno-ignored-attributes
CXX11FLAGS=-O3 -march=native -Wno-ignored-attributes
CXX14FLAGS=-O3 -march=native -Wno-ignored-attributes
CXX17FLAGS=-O3 -march=native -Wno-ignored-attributes

CXXPICFLAGS=-fPIC
CXX11PICFLAGS=-fPIC
CXX14PICFLAGS=-fPIC
CXX17PICFLAGS=-fPIC

CXX11STD=-std=c++11
CXX14STD=-std=c++14
CXX17STD=-std=c++17

## C flags
CC=/opt/rh/devtoolset-10/root/usr/bin/gcc
FLAGS=-O3 -march=native

## Fortran flags
FC=gfortran
F77=gfortran
FFLAGS=-O3 -march=native
FCFLAGS=-O3 -march=native

总结:
1,upgrade gcc

2, specify the absolute gcc and g++ path

如果可以的话,建议把整个系统的gcc都替换成新版的

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

用SRA-Explorer下载测序数据

下载数据的时候,偶然碰到了SRA-Explorer,感觉挺好用的,地址:https://sra-explorer.info/

这个页面本身非常小,见https://github.com/ewels/sra-explorer,利用的是SRA API。

检索好之后,选择你想下载的样本,点击Add ** to collection,然后点击右上角saved datasets,页面下方就可以原始的fastq的链接,用curl下载fastq的命令,用aspera下载fastq的命令,还有下载SRA的命令,以及样本的metadata。非常好用。

和SRA的Run Selector类似,https://www.ncbi.nlm.nih.gov/Traces/study/?

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################