Zhongxu blog

ARCHS4：大规模转录组预处理数据库

Wed, 26 Mar 2025 12:38:05 +0800

公开的转录组数据集多为原始形式，格式不统一、处理方式各异，难以有效利用，所以我想找一个经过标准流程清洗了GEO/SRA数据集的数据库，这样可以直接用清洗后的结果，而不用每个数据集单独处理。recount2（https://jhubiostatistics.shinyapps.io/recount/）就是类似的数据库，但只提供了2038个数据集，远远不够。

今天发现了ARCHS4（https://archs4.org/），感觉满足我目前的需求。ARCHS4数据源于GEO 和 SRA 数据库，还纳入了线虫、果蝇等其他物种的 35000 个样本数据，用的比对软件是Kallisto。数据维护一直在更新，还提供了分析和下载工具（https://github.com/MaayanLab/archs4py）。

RNA-Seq这块，提供了966693个样本比对结果，还提供了样本的tSNE结果，基因相关性结果。

2D color gradient

Sat, 15 Feb 2025 15:55:05 +0800

对于热图大家都熟悉，热图中的颜色表示值的大小。但前几天看到一个热图，里面的颜色含有两个维度的信息，专门有一个颜色的图注（非主图，而是热图里面的颜色说明），如下，横坐标表示D值的大小，纵坐标表示的P值，可以看出二维区域中不同位置的颜色，同时反应了D值和P值的信息。

找了很多工具和方法，都不太方便实现，或者不太容易控制颜色的分布。后来突然悟了，我可以自己生成这个图，从左到右反应的D值大小，两个颜色渐变，从上往下反应的是P值显著性，颜色越来越深。

Sequencing methods

Mon, 22 Apr 2024 14:58:05 +0800

Chip-Seq

染色质免疫共沉淀（Chromatin Immunoprecipitation，ChIP）与二代测序相结合的表观遗传研究技术，能够高效地在全基因组范围内对DNA和蛋白的相互作用进行检测，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。

染色质免疫沉淀法 (ChIP) 是一种基于抗体的技术，可用来选择性地使特异性 DNA 结合蛋白及其 DNA 靶标富集。ChIP 可用来研究某种特殊的蛋白-DNA 相互作用、多种蛋白-DNA 相互作用或全基因组或部分基因内的相互作用。

ChIP 使用可选择性地检测和结合蛋白的抗体，包括组蛋白、组蛋白修饰、转录因子、辅因子，以提供有关染色质状态和基因转录的信息。在 ChIP 中结合使用蛋白质组分析和分子生物学技术，能够让研究者理解目的细胞或组织中的基因表达和调节。

Hi-C

Hi-C技术源于染色体构象捕获（Chromosome Conformation Capture, 3C）技术，利用高通量测序技术，结合生物信息分析方法，研究全基因组范围内整个染色质DNA在空间位置上的关系，获得高分辨率的染色质三维结构信息。Hi-C技术不仅可以研究染色体片段之间的相互作用，建立基因组折叠模型，还可以应用于基因组组装、单体型图谱构建、辅助宏基因组组装等，并可以与RNA-Seq、ChIP-Seq等数据进行联合分析，从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。

Sequencing methods

Mon, 22 Apr 2024 14:58:05 +0800

k-TPS 分型：MOVICS: Multi-Omics integration and VIsualization in Cancer Subtyping https://xlucpu.github.io/MOVICS/MOVICS-VIGNETTE.html

PROGENy pathway signatures

Mon, 05 Feb 2024 15:36:05 +0800

PROGENy is resource that leverages a large compendium of publicly available signaling perturbation experiments to yield a common core of pathway responsive genes. For each pathway, a collection of genes are available along their contribution and significance to it. Inside PROGENy, one can find gene signatures for 14 different pathways: Androgen: involved in the growth and development of the male reproductive organs. EGFR: regulates growth, survival, migration, apoptosis, proliferation, and differentiation in mammalian cells Estrogen: promotes the growth and development of the female reproductive organs.

SAM/BAM文件中的MD标签

Mon, 29 Jan 2024 17:54:05 +0800

我用bowtie比对了序列，想查看reads的错配情况。SAM flag中的M包含了比对上的碱基和错位的碱基，不能区分错配。

参考bowtie的文档，可以看到XM的标签可以指示mismatch的个数，MD标签可以查看具体的错配情况。


`XN:i:<N>`	The number of ambiguous bases in the reference covering this alignment. Only present if SAM record is for an aligned read.
`XM:i:<N>`	The number of mismatches in the alignment. Only present if SAM record is for an aligned read.
`MD:Z:<S>`	A string representation of the mismatched reference bases in the alignment. See SAM Tags format specification for details. Only present if SAM record is for an aligned read.

SAM手册对与MD的介绍

String encoding mismatched and deleted reference bases, used in conjunction with the CIGAR and SEQ fields to reconstruct the bases of the reference sequence interval to which the alignment has been mapped. This can enable variant calling without requiring access to the entire original reference.
编码错配或del的字符串，与CIGAR和SEQ一起使用，重建read的比对情况。可以在不需要整个参考序列的情况下，用于突变检测。

The MD string consists of the following items, concatenated without additional delimiter characters:
MD字符串由以下不含分隔符的条目组成。

• [0-9]+, indicating a run of reference bases that are identical to the corresponding SEQ bases;表示与相应SEQ碱基相同的一系列参考碱基；这里[0-9]+是正则表示。
• [A-Z], identifying a single reference base that differs from the SEQ base aligned at that position;在这个位置SEQ碱基与参考碱基不一致
• \^[A-Z]+, identifying a run of reference bases that have been deleted in the alignment.以^开头，表明有个del，注意del前有^。

总结：数字表示匹配，碱基表示错配，^碱基表示del。

As shown in the complete regular expression above, numbers alternate with the other items. Thus if two mismatches or deletions are adjacent without a run of identical bases between them, a ‘0’ (indicating a 0-length run) must be used to separate them in the MD string. 数字和字符交替出现，如果两个连续错配，中间需要用0来隔开。

Clipping, padding, reference skips, and insertions (‘H’, ‘S’, ‘P’, ‘N’, and ‘I’ CIGAR operations) are not represented in the MD string. When reconstructing the reference sequence, inserted and soft-clipped SEQ bases are omitted as determined by tracking ‘I’ and ‘S’ operations in the CIGAR string. (If the CIGAR string contains ‘N’ operations, then the corresponding skipped parts of the reference sequence cannot be reconstructed.)
Clipping, padding, reference skips, and insertions (‘H’, ‘S’, ‘P’, ‘N’, and ‘I’ CIGAR operations)不体现在MD字符串中，所以要与CIGAR结合。

For example, a string ‘10A5^AC6’ means from the leftmost reference base in the alignment, there are 10 matches followed by an A on the reference which is different from the aligned read base; the next 5 reference bases are matches followed by a 2bp deletion from the reference; the deleted sequence is AC; the last 6 bases are matches.
10A5^AC6表示10个匹配（10），一个与A不匹配（A），2bp的del（^AC），6碱基的匹配。

JC-单细胞转录组分析揭示人类子宫内膜癌的起源和病理过程

Fri, 12 Jan 2024 13:44:05 +0800

Single-cell transcriptomic analysis highlights origin and pathological process of human endometrioid endometrial carcinoma

https://www.nature.com/articles/s41467-022-33982-7

背景

子宫内膜癌(Endometrial cancer, EC)是妇科最常见的恶性肿瘤之一，子宫内膜样子宫内膜癌(endometrioid endomecancer, EEC)是EC的主要病理类型。

在雌激素依赖性EEC肿瘤发生过程中，子宫内膜在没有孕激素保护的情况下长期暴露于雌激素中，表现出不受控制的增殖，并且可以从正常子宫内膜发展到非典型子宫内膜增生(AEH, EEC癌前阶段)，然后逐步发展到EEC。关于ECC的起源过往研究推测包括子宫内膜上皮和基质干成分在内的多种谱系可能是EEC的起源，但证据不足以支持明确起源。

肿瘤微环境由免疫细胞、成纤维细胞、周细胞等组成，在肿瘤的发生、预后和转移中起重要作用，尽管先前的研究已经提示肿瘤微环境在预后和治疗耐药的潜在作用，但从正常子宫内膜到EEC形成的过程仍不明确。

graph TB
    A[子宫内膜及非典型子宫内膜增生AEH及子宫内膜样子宫内膜癌ECC] --> B[细胞分群]
    B --> C[上皮细胞比例在AEH中增加,在EEC中进一步扩大,CNV变化大]
    B --> D[间质成纤维细胞比例下降]
    C --> F[RNA velocity分析,细胞相似性分析,MET marer基因分析等表明ECC不来源CAF]
    D --> F
    F --> G[EEC的上皮聚类,发现AEH特有非纤毛上皮亚群,并在ECC中存在,推测来源于正常的非纤毛上皮]    
    G --> H[EEC上皮细胞独有亚群为致癌亚群,RNA velocity分析非纤毛上皮腺细胞有可能是致癌亚群中存在的来源]
    H --> I[致癌亚群特征基因,发现LCN2和SAA1/2可能是子宫内膜早期肿瘤发生的一个特征]
    I --> J[类器官实验证明在正常子宫内膜和EEC中成纤维细胞是不可缺少的]
    J --> K[类器官实验证明在正常子宫内膜和EEC中成纤维细胞是不可缺少的]
    K --> L[巨噬细胞和淋巴细胞亚群分析表明免疫环境的失调可导致子宫内膜肿瘤的发生]

非编码小RNA的fasta序列下载资源

Fri, 22 Dec 2023 14:53:01 +0800

snoRNA snRNA https://ftp.ensembl.org/pub/release-110/fasta/homo_sapiens/ncrna/Homo_sapiens.GRCh38.ncrna.fa.gz piRNA piRDB https://www.pirnadb.org/download/archive piRBase http://bigdata.ibp.ac.cn/piRBase/download/v3.0/fasta/hsa.v3.0.fa.gz piRNA Bank http://pirnabank.ibab.ac.in/ tRNA GtRNAdb high confidence mature tRNA sequences http://gtrnadb.ucsc.edu/genomes/eukaryota/Hsapi38/hg38-mature-tRNAs.fa mitocondrial tRNA sequences from mitotRNAdb http://mttrna.bioinf.uni-leipzig.de/mtDataOutput/ miRNA https://mirbase.org/download/ yRNA 18S (NR_145820.1), 5S (NR_023363.1), 28S (NR_003287.4) and 5.8S (NR_145821.1); RNY1 (NR_004391.1), RNY3 (NR_004392.1), RNY4 (NR_004393.1) and RNY5 (NR_001571.2) rRNA https://www.ncbi.nlm.nih.gov/nucleotide?term=txid9606[Organism] 选择rRNA下载

recount3超大规模可用转录组数据集

Wed, 13 Dec 2023 12:28:01 +0800

随着测序数据的积累，如何复用这些数据是一个挑战。recount项目，目前是recount3，共收集了8,679人和10,088小鼠的数据集，超过750,000个样本，经过统一处理（uniformly processed），得到gene或exon的表达以及exon-exon junction的数据。好多年前，我就了解过recount项目，很奇怪很少有介绍的。

一，recount对所有属于进行了uniformly processed，避免了分析流程的bias；

二，recount提供了超大规模的预处理之后的数据，直接拿来用，避免研究人员从原始数据分析；

三，recount提供了简单易用的工具，方便研究人员下载和处理数据。

方法1：下载TCGA-OV为例，检索过滤然后下载

library(recount3)

# 同 https://jhubiostatistics.shinyapps.io/recount3-study-explorer/
# 可以看到project_home和project，包括TCGA,GTEX和SRA
human_projects <- available_projects()

proj_info <- subset(
  human_projects,
  project == "OV" & project_type == "data_sources"
)

rse_gene_tcga_ov <- create_rse(proj_info)

#counts data
assays(rse_gene_tcga_ov)$counts <- transform_counts(rse_gene_tcga_ov)
# ## Compute TPMs
assays(rse_gene_tcga_ov)$TPM <- recount::getTPM(rse_gene_tcga_ov, length_var = "score")
# ## Check TPM. Should all be equal to 1
colSums(assay(rse_gene_tcga_ov, "TPM")) / 1e6 


# View sample annotation
View(data.frame(colData(rse_gene_tcga_ov)))

# View gene annotation
View(data.frame(exp$tcga.ov.expr@rowRanges))

方法2：直接选中数据集，生成下载code

在这个网站选中想要下载的数据集，https://jhubiostatistics.shinyapps.io/recount3-study-explorer/，网站下方会显示下载的code。注释不一定是26，还可以是RefSeq v109，Gencode v29等。

rse_gene_tcga_ov = recount3::create_rse_manual(
    project = "OV",
    project_home = "data_sources/tcga",
    organism = "human",
    annotation = "gencode_v26",
    type = "gene"
)

#counts data
assays(rse_gene_tcga_ov)$counts <- transform_counts(rse_gene_tcga_ov)
# ## Compute TPMs
assays(rse_gene_tcga_ov)$TPM <- recount::getTPM(rse_gene_tcga_ov, length_var = "score")
# ## Check TPM. Should all be equal to 1
colSums(assay(rse_gene_tcga_ov, "TPM")) / 1e6

Kingfisher下载SRA数据

Thu, 23 Nov 2023 15:01:01 +0800

我知道一个SRP的编号，里面有我想要下载的数据，我想根据SRP编号快速下载数据，查到了Kingfisher这个工具。

https://github.com/wwood/kingfisher-download

文档：https://wwood.github.io/kingfisher-download/

安装：pip install kingfisher

主要有三个模块，get、extract、annotate

get

kingfisher get -r ERR1739691 -m ena-ascp
# 可以指定列表--run-identifiers-list
# 指定project编号SRP，--bioprojects
# 指定下载方法，--download-methods，可以指定多种，程序会一个方法一个方法的试，包括ena-ascp，ena-ftp，prefetch，aws-http，aws-cp，gcp-cp
# 指定线程数目，--download-threads
# 指定ascp需要的key路径，--ascp-ssh-key

比对、定量多种类型小RNA

Fri, 22 Sep 2023 09:16:41 +0800

前面讲了用工具定量小RNA，但要么软件安装困难，要么维护不好给种错误，所以自己也搭建（抄）了一套流程。主要思路是bowtie比对，HTSeq定量。其实也是利用了HTSeq定量需要gff文件的特点，比对到全基因组后只需要准备好gtf文件即可。

bowtie和bowtie的index文件我已经有了，是在miRDeep2流程中定量miRNA准备的，本文主要介绍定量其他种类的非编码小RNA。

比对

zcat input.fastq.gz | bowtie --seedlen 10 -p 48 -v2 -m20 --best -S --strata --chunkmbs 8000 $BOWTIE_IND - output.sam

-M 1           like -m, but reports 1 random hit (MAPQ=0); requires --best
- 为zcat的输入，bowtie不识别gz，所以用zcat管道流入bowtie
-p 48 线程
-v report end-to-end hits w/ <=v mismatches; ignore qualitie
-m20 丢弃超过20次multi-map的reads
--best --strata multi-map的reads只报告最好的比对
--chunkmbs 8000 best-first搜索的最大内存（M）
-S 输出SAM格式
BOWTIE_IND bowtie的索引

SAM文件处理

`1`	`samtools sort --threads 10 out.sam -o out_sorted.bam --output-fmt BAM && samtools index out_sorted.bam`

gtf文件准备

snRNA,snoRNA等（来自gencode的注释）

axel -n 10 https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_44/gencode.v44.annotation.gtf.gz

zcat gencode.v44.annotation.gtf.gz | grep "snoRNA" > snoRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "Mt_rRNA" > Mt_rRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "Mt_tRNA" > Mt_tRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "rRNA" > rRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "snRNA" > snRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "sRNA" > sRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "scaRNA" > scaRNA.gtf
zcat gencode.v44.annotation.gtf.gz | grep "miRNA" > miRNA.gtf

tRNA

1
2
3

# 也来自gencode，tRNA genes predicted by ENSEMBL on the reference chromosomes using tRNAscan-SE
wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_44/gencode.v44.tRNAs.gtf.gz
zcat gencode.v44.tRNAs.gtf.gz > tRNA.gtf

COMPSRA定量多种类型小RNA

Thu, 21 Sep 2023 12:23:41 +0800

COMPSRA: a COMprehensive Platform for Small RNA-seq data AnalySis

软件和数据准备

# 下载，注意COMPSRA需要JRE
mkdir COMPSRA
cd COMPSRA
wget https://github.com/cougarlj/COMPSRA/raw/master/COMPSRA_V1.0.3.zip
unzip COMPSRA_V1.0.3.zip

# 手动安装star
cd bundle_v1/plug/star
wget -c wget -c https://github.com/alexdobin/STAR/archive/refs/tags/2.5.3a.zip
unzip 2.5.3a.zip


cd ../../..

# 下载注释数据，如果下载的文件不对，可以去https://github.com/cougarlj/COMPSRA上bundle1_V1/prebuilt_db中下载
java -jar COMPSRA.jar -tk -dr -ck miRNA_hg38,piRNA_hg38,tRNA_hg38,snoRNA_hg38,snRNA_hg38,circRNA_hg38

# 下载人基因组
java -jar COMPSRA.jar -tk -dr -ck star_hg38

安装R包sf、lwgeom等报错

Thu, 14 Sep 2023 20:23:41 +0800

安装R包sf、lwgeom的时候，报错

1
2

configure: error: proj_api.h not found in standard or given locations.
configure: error: libproj not found in standard or given locations.

要想办法让R在安装包的时候知道系统已经有了对应的library，我是先创建了一个sysR的conda环境，然后在虚拟环境下装对应的库，可能安多了-_-||

mamba install -c conda-forge gdal
mamba install -c conda-forge proj
mamba install -c conda-forge libgdal
mamba install -c r r-sf
mamba install -c conda-forge proj4
mamba install -c conda-forge r-lwgeom
mamba install -c conda-forge r-proj4

然后为了保险起见，我在bashrc中增加了LD的路径（我只是为了确保系统能找到library的路径，添件了感觉LD_LIBRARY_PATH，事后这个地方可以不用设置）。参见下面PS2，我git push遇到了问题，所以这里建议直接在Terminal里面export，不要写在bashrc中。

1
2

LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/master/zhu_zhong_xu/miniconda3/lib/:/master/zhu_zhong_xu/miniconda3/envs/sysR/lib
export LD_LIBRARY_PATH

在conda安装library的时候，会安装R base。但我用的是Rstudio server下的R，也就是系统级别的R，我为了在虚拟环境下调用系统的R，把conda/env/sysR/bin/R删掉了（切记），这样找不到环境下的R时，就会调用系统的R（当然可以用系统R的绝对路径）。然后在R里面安装对应的包，并指定库的文件夹。

1
2
3

install.packages("sf", configure.args=c("--with-proj-include=~/conda/envs/sysR/include, --with-proj-lib=~/conda/envs/sysR/lib/"))

install.packages("lwgeom", configure.args=c("--with-proj-include=~/conda/envs/sysR/include, --with-proj-lib=~/conda/envs/sysR/lib/"))

JC-ELMER一个基于甲基化和转录组进行调控分析的R包

Wed, 06 Sep 2023 15:59:41 +0800

**ELMER (Enhancer Linking by Methylation/Expression Relationships)**是基于甲基化数据和转录组数据，分析远端甲基化位点调控基因表达的R包，包里也整合了TCGA的数据，也可以自己构建MAE对象，快速进行分析，识别差异甲基化的位点，与基因表达显著相关的甲基化位点和相关区域的motif。

DNA 甲基化可用于识别肿瘤和其他原发性疾病组织中转录增强子和其他顺式调控模块（CRM，cis-regulatory modules）的功能变化。 R/Bioconductor 包 ELMER（通过甲基化/表达关系增强连接）提供了一种系统方法，通过结合来自同一组样本的甲基化和基因表达数据来重建基因调控网络 (GRN，gene regulatory networks)。 ELMER 使用 CRM 的甲基化变化作为网络调控的基础，利用相关性分析将它们与上游主调控 (MR，master regulator) 转录因子和下游目标基因相关联。

ELMER 分析有 5 个主要步骤：

识别 HM450K 或 EPIC 阵列上的远端probe（集成了注释，很方便的拉取远端probe的信息）
识别两组之间 DNA 甲基化水平显着不同的远端probe（常规的甲基化差异分析）
识别差异甲基化远端探针的假定靶基因（通关相关性分析，关联probe和gene）
识别远端探针的富集motif，这些基序具有显着差异甲基化并与假定的目标基因相关（识别motif）。
识别其表达与富集motif处的 DNA 甲基化相关的调节性 TF转录因子

ELMER能做的分析，参考手册的plot页面，例如https://www.bioconductor.org/packages/release/bioc/vignettes/ELMER/inst/doc/plots_scatter.html

校正混杂因素

Thu, 17 Aug 2023 22:36:41 +0800

混杂因素亦称混杂因子或外来因素，指与研究因素和研究疾病均有关，若在比较的人群组中分布不均，可以歪曲（掩盖或夸大）因素与疾病之间真正联系的因素。

校正变量的方法很简单，只需要校正的变量和要分析的变量共同纳入方程即可，但是最好在纳入方程前对于自变量能有一个初筛即根据资料的特点和文献复习的情况，只纳入可能有关的,对于初筛p值特别大的最好不要纳入方程以免方程出现不稳定。

混杂因素的影响以及校正可以参考这个post：https://www.r-bloggers.com/2020/09/correcting-for-confounded-variables-with-glms/

GEO数据库中的文件（SOFT）

Mon, 26 Jun 2023 15:15:11 +0800

除了用GEO2下载数据外，还可以自己直接下载。在看GSE数据集的时候，会看到这三个文件。

Download family	Format	Description
SOFT formatted family file(s)	SOFT	SOFT family files are text files that incorporate complete data and meta data for all Platform, Sample and Series records in the family
MINiML formatted family file(s)	MINiML	MINilML family files are XML files that incorporate complete data and metadata for all Platform, Sample and series records in the family
Series Matrix File(s)	TXT	Series matrix files are text files that include a tab-delimited value-matrix table generated from the VALUE' column of each Sample, headed by Sample and Series metadata. These files are suitable for loading into spreadsheet applications such as Excel. CAUTION: data are extracted directly from the original records with no consideration as to whether the values are directly comparable.

下数据当然可以用GEO2R，不一定每次都自己下载原始文件，但了解文件格式和内容是很重要的。SOFT formatted family file，MINiML formatted family file，Series Matrix File。以https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE68849为例。

SOFT formatted family file

1，Meta信息

这个文件的头数据记录数据集的编号，实验介绍，包含的样本，使用的平台，上传人等信息，和网页显示的对应。^开头表示entity实体，!表示entity的属性，#表示描述行。

用miRDeep2来定量miRNA丰度

Thu, 01 Jun 2023 21:10:01 +0800

一直用miRDeep2来定量miRNA。miRDeep2包含了bowtie比对和定量两步，比自己搭流程更方便一点。最近换了太服务器准备跑miRDeep2，发现要准备的文件还挺多，比如全基因组的bowtie索引，miRBase的序列等，都忘记当初准备的过程了，所以重新整理一下。

安装

我用conda 安装的

`1`	`mamba install -c bioconda mirdeep2`

文件准备

mkdir -p ~/ref/miRBase22
cd ~/ref/miRBase22

# 下载miRBase22
wget -c https://www.mirbase.org/ftp/CURRENT/mature.fa.gz
wget -c https://www.mirbase.org/ftp/CURRENT/hairpin.fa.gz

# 提取人has的序列
gunzip mature.fa.gz hairpin.fa.gz
extract_miRNAs.pl mature.fa hsa > mature_ref.fa
extract_miRNAs.pl hairpin.fa hsa > hairpin_ref.fa

# 如果需要预测novel miRNA，还需要下载人基因组序列
wget -c https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_43/GRCh38.p13.genome.fa.gz
gunzip GRCh38.p13.genome.fa.gz
bowtie-build GRCh38.p13.genome.fa GRCh38.p13.genome.fa

运行miRDeep2

这里没有预测新的novel miRNA，另外fastq应该是经过质控后的，不含adapter序列。

Science Advances | 群体遗传学揭示驯化对蜜蜂进化的重要影响

Thu, 04 May 2023 08:39:01 +0800

动植物驯化是人类改造自然界的形式之一，促进了由游猎社会向农业定居社会的变革，在人类社会早期的重要性与火的使用、工具的制造及语言的产生相并列。蜂蜜作为史前人类最主要的甜味物质来源，早在石器时代便有猎取的记载。尽管西方蜜蜂Apis mellifera在全球广泛商业化饲养，但由于难以实现完全可控的交配（蜂王和雄蜂在高空飞行交尾导致野生群和饲养群之间持续的基因交流），学界长期认为其未被完全驯化。虽则如此，若人为将蜂群迁出其自然分布区，便可摆脱野生群体这一干扰因素；尤其是在一种致命的体外寄生虫（狄斯瓦螨Varroa destructor）于上世纪后半叶扩张至全球大部分地区之后，西方蜜蜂野生种群已然踪迹难寻。因此，在进行起源与进化相关的群体遗传学分析时，如若将经过高度人工干预的物种样本视为野生群体，势必会导致结果出现偏差，这可能是近年间不断有新的西方蜜蜂系（lineage）和亚种被报道的重要原因。

扬州大学吉挺与吉林省养蜂科学研究所牛庆生、黑龙江省农业科学院牡丹江分院高夫超等团队合作，以我国独特地方资源东北黑蜂（Dongbei bee）为研究对象，系统阐释了人工驯养对物种进化的巨大影响，并在全球首次提出蜜蜂品种的概念。研究发表于Science子刊《Science Advances》，并作为亮点论文（Featured Article）在官网主页重点推介。期刊副总编辑（Deputy Editor）、美国哥伦比亚大学地球环境可持续研究中心主任Shahid Naeem教授评价称：“该研究利用现代基因组工具记录驯化，是一项值得关注的研究方式，我真的非常喜欢。”

pTMB (Persistent mutation burden)

Tue, 02 May 2023 23:12:01 +0800

The pTMB was defined as the number of mutations in either the multi-copy or single-copy category.

https://www.nature.com/articles/s41591-022-02163-w

肿瘤突变负荷TMB经常用在预测免疫治疗反应，但效果有时候并不是很好。这篇文章的作者评估了不太可能发生缺失loss的基因组区域中的突变情况，涉及31 种肿瘤类型 (n = 9,242) 和 8 个接受免疫治疗的队列 (n = 524)。作者发现单拷贝区域中的突变和每个细胞中存在多个拷贝的突变构成了持续性肿瘤突变负担 (persistent tumor mutation burdedn，pTMB)，并且与免疫治疗反应有关。在免疫治疗的选择性压力下，肿瘤进化过程中保留了持persistent mutation，并且具有高 pTMB的肿瘤的有更多炎症相关微环境。 pTMB的存在，阻碍癌细胞克服的进化瓶颈，因此可能在免疫治疗的背景下推动持续的免疫肿瘤控制。

R语言中phyper做超几何检验

Tue, 11 Apr 2023 11:25:01 +0800

phyper

基因集分析有两种，一种是GSEA（gene set enrichment analysis），需要根据所有基因logFC排序，根据rank来算enrichment score，还有一种是ORA（Over-representation analysis），看选出的显著的基因集是否和已知的基因集显著相关。对于ORA分析，常用超几何分布来检验。在R语言中，用的函数是phyper。

############## 以基因集分析为例，超几何检验看通过差异筛选出的基因集genes是否和已知的某个基因集gene_set显著相关
# x: 研究者筛选出的基因集genes和待检验的已知基因集之间的重叠的基因数目gene_set----> length(intersect(genes, gene_set))
# m: 已知基因集内的基因数目---->length(gene_set)
# n: 背景基因集减去m---->length(universe) - n
# k: 研究者筛选出的差异基因的数目length(genes)
############## 以挑选红球和黑球为例，看挑选的球中是否富集红球
# 有一堆球，红球有n_red个，黑球有n_black个，总共为n个（n_red + n_black），拿出来n_out个球，其中有n_red_out个红球
# x: n_red_out拿出来的球中的红球数
# m: n_red红球数
# n: n - n_red = n_black黑球数
# k: n_out拿出来的球
phyper(x - 1, m, n, k, lower.tail = FALSE)

$$ phyper(…, lower.tail = FALSE)计算的是Pr(X>x)在计算p值时，x-1计算的才是Pr(X≥x) $$

随机森林训练集样例不平衡

Mon, 10 Apr 2023 12:25:01 +0800

最近在用RF的时候，有一个很明显的现象就是训练集样本标签不平衡，有的很多有的很少，导致做预测的时候，预测的标签倾向于在训练集中占多数的标签。

Ensemble Learning

Mon, 10 Apr 2023 10:03:12 +0800

机器学习的目标是做预测，但有时候单个预测模型并不一定有很好性能。集成学习的思想是，把多个弱机器学习模型集成在一起，不同的学习方法之间可能相互补充，进而降低预测的错误率，提高最终的预测性能。集成学习在各个规模的数据集上都有很好的策略结果。

常见的集成方法有Bagging，Boosting，Stacking，Voting和Blending。

又可以分为两大类：（1）序列集成方法：其中参与训练的基础学习器按照顺序生成（Boost）。序列方法的原理是利用基础学习器之间的依赖关系。通过对之前训练中错误标记的样本赋值较高的权重，可以提高整体的预测效果。（2）并行集成方法，其中参与训练的基础学习器并行生成（如经典的Random Forest）。并行方法的原理是利用基础学习器之间的独立性，通过平均可以显著降低错误。

肿瘤标志物学术大会 CCTB大会 2022

Sun, 09 Apr 2023 17:03:51 +0800

CCTB 2022：https://biomarker2022.sciconf.cn

参加肿瘤标志物的大会，好几个会议同步进行，来演讲的人都是业界的专家，水平很高，虽然大部分报告都是科研形式的汇报，和产业汇报不一样，但同样给人启发。

Convolutional Neural Networks

Fri, 07 Apr 2023 20:19:51 +0800

保存几张1D卷积的图和文章，方便以后查找，摘自互联网。说不准以后搞深度学呢🫠🙃卷的结果就是以后不上人工智能都不要意思说自己是搞生信的。

主要是看到一篇文章，用了卷积神经网络，我一直就好奇组学数据怎么做卷积，所以就看了下文章，发现用的是Conv1D。（不知道理解的对不对）对于1D卷积Conv1D而言，如果卷积核kernel size是2的话，最终会生成一个 “行数-kernel size+1“的向量，如果数据分批给的话，就有batch，比如如果样本是21000，batch size是128的话，每个batch有165个样本，所以Nature Machine Intelligence的附图 Fig. 10这篇文章还进行了BatchNormalization。

Samples = 21000, batch_size=128 -> training_sample for each epoch = 21000/128 = 164.06 ~= 165

https://stackoverflow.com/questions/72529761/batch-size-in-input-shape-statement-for-keras-conv1d-layers

filters可以指定多次卷积（相同kernel size），这样可以生成二维的数据。

Args	https://www.tensorflow.org/api_docs/python/tf/keras/layers/Conv1D
`filters`	Integer, the dimensionality of the output space (i.e. the number of output filters in the convolution).
`kernel_size`	An integer or tuple/list of a single integer, specifying the length of the 1D convolution window.

Deep learning decodes the principles of differential gene expression

Jupyter Notebook Conversion

Wed, 29 Mar 2023 10:52:11 +0800

遇到的情形

分析的代码已经调试好，但分析的时间较长；

后端启动jupyter notebook后，奈何网络不稳定，notebook经常掉线，跑到一半的程序就断掉了；

服务器其他人的jupyter notebook的端口如果和我的一样，别人启动jupyter notebook后，我正在用的端口就会往后变。

于是我就想，能否在终端直接运行.ipynb文件，这样我就可以加nohup命令了，或者把ipynb的代码转成python，我nohup运行python也行。

基于以上情况，我google到了nbconvert。

nbconvert

nbconvert的github地址：https://github.com/jupyter/nbconvert

jupyter nbconvert通过模版引擎jinja将ipynb文件转成其他格式的文件，包括

HTML
LaTeX
PDF
Reveal JS
Markdown (md)
ReStructured Text (rst)
executable script

此外nbconvert还有另外一个功能就是通过–execute选项在终端执行ipynb文件

安装nbconvert

1
2

pip install nbconvert
# 或者conda install nbconvert

ipynb格式转换

# 转成python，转成后，后有前缀和ipynb一样的py文件，运行这个就行。
jupyter nbconvert --to python --execute mynotebook.ipynb
# --to后面跟格式，比如html
jupyter nbconvert --to html mynotebook.ipynb
# 支持的格式包括['asciidoc', 'custom', 'html', 'html_ch', 'html_embed', 'html_toc', 'html_with_lenvs', 'html_with_toclenvs', 'latex', 'latex_with_lenvs', 'markdown', 'notebook', 'pdf', 'python', 'rst', 'script', 'selectLanguage', 'slides', 'slides_with_lenvs']

上面是格式转换，在转换的过程中，比如转pdf、latex的时候，可能还需要额外的包，比如pandoc等，还需要额外安装。可以参考https://nbconvert.readthedocs.io/en/latest/index.html

jupyter nbconvert还有个功能就是执行ipynb格式的文件，如下

jupyter nbconvert --execute mynotebook.ipynb
# 这个时候就和linux终端下的正常命令类似了，比如加上重定向
jupyter nbconvert --execute mynotebook.ipynb >> mylog.out.log 2>&1
# 还可以和格式转换相结合
jupyter nbconvert --to python --execute mynotebook.ipynb

假设我想把通过运行jupyter nbconvert执行ipynb文件的过程更简单点，可以通过在.profile里面设置命令的别名

# .profile或者.bashrc里面配置
alias nbx="jupyter nbconvert --execute"
# 终端运行ipynb文件
nbx mynotebook.ipynb

合并Isoseq的subreads文件

Thu, 09 Mar 2023 23:41:40 +0800

当进行Isoseq的样本测了多次，或者多个run时，可能会碰到合并subreads.bam文件。我倾向先合并再往后分析，兼容以前的流程，避免分别分析再合并会遇到其他错误。Pacbio Isoseq的下机数据格式已经从h5变成了subreads.bam，合并其实很简单，和samtools类似，但得用pacbio的工具才行，当然还要建立index生成pbi文件，也是用pacbio的工具。

# merge
pbmerge -o merged.bam data_1.bam data_2.bam data_3.bam
# index
pbindex merged.bam

VAF (variant allele frequency) vs CCF (cancer cell fraction)

Thu, 06 Oct 2022 15:27:00 +0800

VAF - variant allele frequency

Variant allele fraction or frequency (VAF): the fraction of mutated reads for a given variant, which is a readout for the proportion of DNA mutated in the sequenced tissue.

测序时特定位点突变的reads数比上总的reads数，可以从VCF中获得。

CCF - cancer cell fraction

Cancer cell fraction (CCF): the fraction of cancer cells from the sequenced sample carrying a set of SNVs.

携带突变的癌细胞比例，可以通过pyclone（https://github.com/Roth-Lab/pyclone-vi）或sciclone（https://github.com/genome/sciclone）计算。

$$ CCF = VAF *\frac{1}{p}[pCN_t + CN_n(1-p)] $$

VAF: corresponds to the variant allele frequency at the mutated base

p: the tumor purity肿瘤纯度

CNt: the tumor locus specific copy number所在位置的拷贝数

CNn: the normal locus specific copy number (CNn was assumed to be 2 for autosomal chromosomes)正常样本的拷贝数

时间依赖的ROC

Tue, 04 Oct 2022 19:33:00 +0800

三种时间依赖的ROC

诊断模型的ROC是大家最熟悉的，一组二分类的真实标签，一组风险分值，不同的cutoff下有不同的灵敏度和特异性，就能画出ROC曲线。

生存分析一般建立Cox模型，根据Cox模型也会有一组风险分值，生存结局也是一个二分类的标签，但病例多了时间的信息。

三种不同的定义来估计删失事件的时间依赖的敏感性和特异性，即（1）cumulative/dynamic累积/动态（C/D），（2）incident/dynamic事件/动态（I/D）和（3） incident/static事件/静态 (I/S)。不同的定义下，灵敏度和特异性的计算不一样。其中C/D比I/D和I/S更具有临床相关性，在临床中普遍使用。

t: 目标时间，t* 固定的随访时间，c 阈值，A-F为研究中的个体病例，其中ABC的指标高于c，DEF个体的指标小于c，实心圆表示发生事件的个体，空心圆表示Censored个体。

图a，C/D、I/D、I/S中的相对于基线时间点的实验和对照个体说明，图b，I/S（纵向）的说明

Cumulative sensitivity and dynamic specificity (C/D)

$$ \begin{array}{l} S{e}^C\left( c, t\right)= P\left({X}_i> c\Big|{T}_i\le t\right)\\ {} S{p}^D\left( c, t\right)= P\left({X}_i\le c\Big|{T}_i> t\right)\\ {} AU{C}^{C, D}(t)= P\left({X}_i>{X}_j\Big|{T}_i\le t,{T}_j> t\right), i\ne j.\end{array} $$

cumulative/dynamic(C/D)中cumulative是指Cumulative sensitivity，dynamic是指dynamic specificity。C/D是用的最广泛的ROC模型。

灵敏度：生存时间小于t的人群之中，Xi大于阈值c的人群（A和B个体）所占总体（A、B和E）的比例

特异度：生存时间大于t的人群之中，Xi小于等于阈值c的人群（D和F）所占总体（C，D和F）的比例

用二分类模型来类比，时间ROC，在选定特定时间点（比如1年、3年或者5年）时，不同的阈值c可以将队列人群分成高于c的一组（高风险，认为发生了死亡/事件）和小于等于c（低风险，认为没有发生死亡/事件），但这个时间点有真实的死亡或者事件的标签，于是可以计算在特定时间点特定c时的灵敏度和特异性，进行画ROC计算AUC。所以文献中经常看到1yr, 3yr, 5yr ROC的图，有了ROC的图，其实也可以画DCA进行DCA分析。

通过snakemake向slurm提交任务

Sun, 02 Oct 2022 10:12:00 +0800

集群任务调度，最初读研究生的时候，接触的是实验室用的condor(https://research.cs.wisc.edu/htcondor/)，目前还在维护。在脚本里面设定好请求的计算资源，交给master节点即可，调度系统会自动分配和管理任务。这也是我对集群管理中的任务调度的初始了解。后来不管是工作还是在实验室，遇到最多的是SGE(sun grid engine)。再后来SGE被Oracle抛弃，又接触了Slurm和Torque。不管何种系统，通过集群调度来实现分析的分布式计算，而不用关系具体的任务分配，极大的提高了集群的利用率和分析效率。

关于流程管理，如果只有一两个样本的情况下，我都是直接把pipeline放到sh脚本上直接跑，懒得用流程管理。但如果样本很多，成百上千个样本的时候，最好用流程管理，来追踪大规模任务的分析状态，是否报错，是否成功结束，以免手工check造成遗漏。我有时候会在命令之后加&& touch “Done"或者判断$0的状态，来确保程序正确执行，但这样做确实很繁琐。后来snakemake开始流行，又是和python结合，易读性很好，就尝试开始用snakemake。一个Snakefile文件，可以搞定N多样本，还能监控分析的进度。

正好最近需要在一个slurm调度管理的集群上进行分析，而流程本身就封装在Snakefile文件中，如果体验了snakemake和slurm合体，体验非常好，颠覆了我对向集群投递任务的繁琐印象。要是放在以前，我要分析1000个样本，我可能要生成1000个script，需要专门写一个生成job script的script，然后再投递。我也知道可以通过传参进行批量投递，但体验非常不好。所以还是感慨技术的进步，也推荐snakemake和slurm一起用。本文主要提一下如何微调下资源请求的命令。

假设我的Snakemake文件有1000个job，我需要向集群提交任务，如果和slurm或者SGE配合使用，需要用到–cluster和–jobs选项。

1
2
3

snakemake --cluster "sbatch -N 1 --ntasks=1  --cpus-per-task=10" --jobs 10
# --cluster 后面跟的是提交命令，如果是SGE的话，就是qsub
# --jobs是最大同时投递的任务数目

很多文档中提到要在Snakefile中的每个rule中设置resources，比如resources: mem_mb = 40000，但我发现这样提交的任务，是获取不了具体的请求资源。这个时候用scontrol show job jobid查看请求的资源，可以看到可以用10个cpu，但请求的内存依然是默认的。

查了很多教程，都是通过配置yaml或者json文件，我觉得这样很繁琐，而且每个rule的请求资源是不一样的，通过配置文件，相当于多了一个文件，多了很多工作。看到有人说–cluster中可以用wildcards，就打开了我的思路。比如在rule设置了相对应的内存和时间，可以通过wildcards来调用，不同的rule的任务，提交时就对应不同的资源请求。实现起来是这样的

`1`	`snakemake --cluster "sbatch -N 1--mem={resources.mem_mb} --ntasks=1 --cpus-per-task=10 " --jobs 10`

这个时候，可以进一步把snakefile里面的threads信息利用起来

`1`	`snakemake --cluster "sbatch -N 1--mem={resources.mem_mb} --ntasks=1 --cpus-per-task={threads} " --jobs 10`

这个时候scontrol show job jobid显示请求资源是我们想要的，但squeque的job名是snakemake.job，分不清现在正在运行的任务对应哪个rule，可以这么修改。

`1`	`snakemake --cluster "sbatch -N 1--mem={resources.mem_mb} --ntasks=1 --cpus-per-task={threads} --job-name={rule}" --jobs 10`

那么，进一步让输出日志和错误日志可读，可以这么修改

1
2
3

snakemake --cluster "sbatch -N 1--mem={resources.mem_mb} --ntasks=1  --cpus-per-task={threads} --job-name={rule} --output={rule}.%j.out --error={rule}.%j.err" --jobs 10

snakemake --cluster "sbatch --nodes=1 --exclude=gpu1 --job-name={rule} --mem={resources.mem_mb} --ntasks=1 --cpus-per-task={threads} --output={rule}.%j.out --error={rule}.%j.err" --jobs 15

如果想进一步修改job名的可读性和日志文件的可读性，可以把rule里面的wildcards传进来。比如我的每个rule中都匹配了sample，那在传给 job-name和output, errror的时候，把{wildcards.sample}传过来就行。如果我不想把任务投递给一个node节点，可以通过exclude（比如–exclude=gpu1）来指定。

真空采血管的颜色分类

Fri, 30 Sep 2022 14:14:03 +0800

是的，没看错，我开始研究采血管的颜色了。

不同颜色的头盖和标签，表示不同的添加剂种类和试验用途。举个例子，提取血清和血浆，要分别用促凝管和抗凝管。又比如促凝管有两种，一个是橘色的，一种是含有分离胶的黄色管，抗凝管的成分有添加柠檬酸钠的浅蓝色管，也有EDTA紫色管。具体的添加剂和使用范围如下图。

删除tmp文件

Thu, 18 Aug 2022 20:14:05 +0800

服务器的tmp文件夹满了，导致不能正常登陆和运行软件，需要清理tmp文件夹下面的临时文件。Linux的机制是在重启的时候清理tmp文件夹，或者一段时间才删除（比如下面我们看到的服务器默认是10天），find命令和tmpwacth命令可以在不重启和不影响用户的情况下快速删除目标文件。

Find命令

1
2

# ctime即change time文件状态改变时间为超过一天的
find /tmp -ctime +1 -exec rm -rf {} \;

tmpwatch

yum install tmpwatch -y
# 超过一天
tmpwatch 1d /tmp
# 超过32小时
tmpwatch -afv 32 /tmp/

定时清理

CentOS 6

看到说在CentOS下的/etc/cron.daily/tmpwatch可以设置自动清理时间，但我没找到，-_-||，例如下面设置的是/var/tmp下30d，也就是30天，/tmp下10天，但服务器/usr/sbin下面并没有tmpwatch，如果大家的服务器上有这个，可以通过这个设置定期清理一定时间的文件。

#! /bin/sh 
flags=-umc 
/usr/sbin/tmpwatch "$flags" -x /tmp/.X11-unix -x /tmp/.XIM-unix \ 
        -x /tmp/.font-unix -x /tmp/.ICE-unix -x /tmp/.Test-unix \ 
        -X ‘/tmp/hsperfdata_*’ 10d /tmp 
/usr/sbin/tmpwatch "$flags" 30d /var/tmp 
for d in /var/{cache/man,catman}/{cat?,X11R6/cat?,local/cat?}; do 
    if [ -d "$d" ]; then 
        /usr/sbin/tmpwatch "$flags" -f 30d "$d" 
    fi 
done

Linux命令把excel转换为tsv或者csv

Sun, 12 Jun 2022 21:45:05 +0800

论文附件给的格式一般是excel格式，用R读取特别慢，于是找有没有命令行下的工具，将excel转换成tsv格式，方便下一步处理。

找到了xlsx2csv这个工具，详见 https://github.com/dilshod/xlsx2csv

安装也非常简单，直接用pip安装就行

pip install xlsx2csv

一个命令即可完成转换工作

xlsx2csv -d tab ***.xlsx

如果不加-d tab则默认是csv格式。

还可以批量转，假设某个目录下有很多excel文件

xlsx2csv /path/to/input/dir /path/to/output/dir

还可以在python脚本里面import，挺好用的，安利。

免疫系统介绍（转载）

Wed, 01 Jun 2022 12:17:55 +0800

全文来自https://www.cellsignal.cn/science-resources/overview-of-immunology

免疫系统

免疫系统由主要功能为检测、应答和消除病原体及转化细胞的组织、细胞和分子组成。

天然与适应性免疫应答

免疫系统有两种主要组分：1) 天然免疫系统和 2) 适应性免疫系统。天然免疫系统是第一道防线，可通过生殖细胞系编码的模式识别受体来检测病原体，但不会有记忆，并且可迅速应答（几分钟到几小时内）。适应性免疫系统应答缓慢（几天以上），使用会在发育过程中经历多次基因重排的抗原特异性受体，并且会形成免疫记忆 — 从最初的损害中“吸取教训”，使身体准备好以防止在将来暴露在类似的有害物质下。胞外液中的大分子，或特异性免疫细胞的激活会诱发这两种免疫应答。这些应答分别称为体液免疫和细胞介导的免疫。

在细胞介导的免疫应答的保护下，免疫细胞主要根据应答是天然的还是适应性的来进行分层。天然免疫系统主要包含吞噬细胞（例如嗜中性粒细胞、巨噬细胞）、自然杀伤细胞、嗜碱性粒细胞和其他靶向危险入侵微生物的细胞。适应性免疫系统的细胞为 T 细胞和 B 细胞。自然杀伤 (NK) T 细胞同时具有天然和适应性免疫细胞的特点。此外，对于大多数对免疫系统没有特异性的其他细胞类型，可能会以细胞浆受体和信号转导及效应分子（例如 RIG-I、STING 和 NLR 家族的成员）的形式带有固有的天然免疫功能。我们进一步回顾会发现，这两种系统的细胞来自于造血干细胞的不同髓样和淋巴样细胞系。

免疫系统组分

成熟免疫细胞从所谓的造血干细胞分化而来。这些是在骨髓、外周血和胎盘中发现的多能性未分化祖细胞。这些造血干细胞可分化成常见的髓样祖细胞或常见的淋巴样祖细胞。

淋巴样细胞

常见淋巴样祖细胞可分化成为四种可通过细胞表面受体表达来区分的主要淋巴细胞群：T 细胞、B 细胞、自然杀伤 (NK) 细胞及 NK-T 细胞。

T 细胞

T 细胞在细胞介导的免疫方面发挥关键作用。这些细胞可以根据 CD3 T 细胞信号转导链的表达来检测。

T 细胞来自于最初从骨髓中的造血干细胞发育而成的淋巴样祖细胞。一旦淋巴样祖细胞定向发育成为 T 细胞，就会从骨髓迁移到胸腺（因此称为 T 细胞）。胸腺提供合适的微环境，T 细胞在这里发育成为不同亚型，具体取决于在细胞表面上表达的特异性受体。早期成熟 T 细胞或胸腺细胞缺乏 CD4 和 CD8 受体，因此称为双阴性 (DN) 细胞。随后，DN 细胞经历会编码 α- 和 β- T 细胞受体 (TCR) 的基因重排和基因突变，这从细胞系定向通路开始，一直向下，最终产生对独特抗原有特异性亲和力的 T 细胞受体。

R 报错 Error protect() protection stack overflow

Tue, 31 May 2022 17:32:52 +0800

用Rstudio跑程序的时候报错：

`1`	`Error: protect(): protection stack overflow`

大部分解决方案是在代码中设置options(expressions = 5e5)，但不能解决。其实是在执行R代码是遇到防护堆叠上溢的error，但实际上服务器的内存很大，我们增加指针保护堆栈大小就行，但是要先把R程序准备成脚本，用Rscript运行的时候添加–max-ppsize选项。例如

1
2
3

Rscript --max-ppsize=500000 test.R

# The command-line option --max-ppsize controls the maximum size of the pointer protection stack. This defaults to 50000, but can be increased to allow deep recursion or large and complicated calculations to be done. Note that parts of the garbage collection process goes through the full reserved pointer protection stack and hence becomes slower when the size is increased. Currently the maximum value accepted is 500000.

顺便学习下R的内存控制，mark一下

用exceRpt定量miRNA、piRNA、tRNA

Tue, 24 May 2022 09:02:06 +0800

exceRpt：The extra-cellular RNA processing toolkit

关于miRNA的定量工具其实有很多，有人用STAR或者bowtie比对，然后自己定量。我喜欢打包的解决方案，避免造轮子，我经常用的是miRDeep2。朋友问piRNAR如何定量，是否可以用exceRpt。于是和他一起研究了下exceRpt，发现exceRpt对miRNA的定量基本上与miRDeep2的结果一致，感觉exceRpt靠谱。

exceRpt目地址：http://github.gersteinlab.org/exceRpt/

主要思想是先去掉无关的reads，比如45S, 5S，rRNA等，然后同时比对genome, miRNA（mirBase），tRNA（ gtRNAdb）, piRNA（ piRNABank），longRNA（gencode）， circRNA（circBase），看reads和哪种类型的的RNA最接近，然后定量。

wget下载整个网站或页面

Mon, 23 May 2022 20:04:06 +0800

碰到一个很有意思的tutorial，想保存下来线下看。命令如下 1 wget --mirror --convert-links --adjust-extension --page-requisites --no-parent https://site-to-download.com --mirror 递归下载 --no-parent 不下载父目录，避免把整个网站下载下来 --convert-links 该命令使链接

连锁不平衡LD（linkage disequilibrium)

Thu, 12 May 2022 23:10:06 +0800

总结连锁不平衡的一些知识，内容来源(copy)网络。

1、LD的概念

连锁不平衡（linkage disequilibrium, LD）分析是群体遗传学研究中常见的分析内容，当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时，称这两个座位处于连锁不平衡状态。

连锁不平衡性是指在两个或者多个位点上的非随机关联性，这些位点既可能在同一条染色体上，也可以在不同的染色体上。连锁不平衡性也被称作配子水平的不平衡性或配子不平衡性。从另一个角度讲，连锁不平衡是等位基因或者遗传标记在一个人群中表现出高于或低于由等位基因的随机频率而预测的单模标本的频率。连锁是指染色体上的两个或者多个位点进行有限的组合，而连锁不平衡性不等同于连锁。连锁不平衡的数量取决于观察和预期的位点频率的差异。对于那些重组后位点或者基因型的频率等于预期的群体我们称其为连锁平衡。连锁不平衡的程度取决于多方面的因素，包括遗传连锁，选择，和重组的概率，遗传漂变，选型交配以及群体结构，都会影响LD的变化。

上图展示了由Haploview软件生成的连锁不平衡块Linkage disequilibrium (LD) block，LD用 D′ statistic衡量，颜色从蓝到红表示LD的高低（https://doi.org/10.1038/jhg.2016.40）。

VECTOR_ELT() can only be applied to a 'list', not a 'NULL'

Mon, 09 May 2022 18:11:23 +0800

用R画图的时候，报错，但其实代码是没问题的

Error in grid.Call(C_convert, x, as.integer(whatfrom), as.integer(whatto),  : 
VECTOR_ELT() can only be applied to a 'list', not a 'NULL'
                   
Error in grid.newpage() : 
  could not open file '/tmp/RtmpCWAOi6/5413447bbbfc43748734b70eb6a8f054.png'
Error in file(out, "wt") : cannot open the connection

升级fs包就行了。

`1`	`install.packages("fs")`

可能升级fs包适合我的例子。如果你的问题是下面的，你可能仅仅需要拉大Rstudio显示图片的面板，重新画图即可

viewport has zero dimension(s)
In addition: warning messages:
1: Transformation introduced infinite values in continuous x-axis
2: Transformation introduced infinite values in continuous x-axis

CTRP数据库中的AUC值

Thu, 05 May 2022 22:15:08 +0800

背景：

评价药物敏感性，分两种，如上图，一种是IC50（半数抑制浓度，half-maximal inhibitory concentration），IC50表示在抑制率/功效为50%（最大抑制率/功效为100%）时的浓度，见蓝线。EC50 (半数效应浓度，Half maximal effective concentration)为最大抑制率/功效一半时的浓度，见红线。但是EC50 对于低振幅曲线（绿线）是不明确的，而且IC50 或 EC50 不能从不完整的剂量反应曲线中得到（黑线）。另外就是常用AUC来评价，AUC是剂量反应曲线下面积。

但在分析的时候，对CTRP的AUC值非常迷惑，因为CTRP的AUC值大部分都大于1，现在是明白了。

CTRP的AUC值：

确实是曲线下面积，但是和模型的AUC不一样的地方是，x轴是浓度，并不是临床模型常引用的0到1的假阳性率，这样在算面积的时候，AUC最大值并不是1
AUC越大，说明对药物越不敏感

临床模型的决策曲线分析解读

Sat, 30 Apr 2022 21:02:20 +0800

朋友问如何解读决策曲线分析，正好我也顺便学习一下，看到这篇文章[A simple, step-by-step guide to interpreting decision curve analysis](A simple, step-by-step guide to interpreting decision curve analysis)，这篇文章引用也100多了。

[TOC]

Abstract

背景

决策曲线分析是一种评估预测模型和诊断测试的方法，该方法在 2006 年的出版物中引入。现在文献中普遍报道了决策曲线，但对其含义的理解仍然存在广泛的误解和混淆。

评论总结

在本文中，我们一步一步的解读决策曲线分析，并回答了有关该方法的一些常见问题。我们认为，解释决策曲线的许多困难可以通过将 y 轴重新标记为“收益”并将 x 轴重新标记为“偏好”来解决。如果模型或测试在一系列临床合理偏好中具有最高水平的益处，则可以推荐用于临床使用。

结论

如果读者和作者遵循一些简单的指导方针，决策曲线很容易理解。

引言

决策曲线分析是一种评估预测模型和诊断测试的方法，由 Vickers 和 Elkin 在 2006 年的 Medical Decision Making刊物上提出。该方法试图克服传统统计指标的局限性，例如区分和校准，因为它们不能直接提供临床价值信息以及完整决策分析方法，这些方法不适用于常规生物统计学实践。

简而言之，与治疗所有患者或不治疗患者的默认策略相比，决策曲线分析计算一个或多个预测模型或诊断测试的临床“净收益（net benefit）”。净收益是基于一系列阈值概率（0-1）计算的。

阈值概率（threshold probability）定义为需要进一步干预的疾病的最小概率，我们可以理解为风险概率。

净收益（net benefit） = sensitivity × prevalence – (1 – specificity) × (1 – prevalence) × w （这个公式多了prevalence）

对于给出疾病预测概率 p̂ 的预测模型，在特定的pt阈值下，w是比值比odds，等于p̂/(1-p̂)，阳性样本的 p̂ ≥ pt，进而可以计算灵敏度和特异性。净收益不同于判别和校准等准确度指标，因为它包含了基于模型或测试做出的决策的后果。有关决策曲线分析背景的更多信息，参阅 Vickers 等人。

06年文章中简单的公式没有prevalence，如下

蛋白延伸（extension）变异的hgvs命名

Mon, 25 Apr 2022 12:06:20 +0800

翻译https://varnomen.hgvs.org/recommendations/protein/variant/extension/

这个突变类型不常见，hgvs的命名挺有意思的

延伸突变定义

序列变化导致参考氨基酸序列在N或者C端多了一个或者多个氨基酸

描述

p.Met1ext-5

N端格式: “prefix”“Met1”“ext”“position_new_initiation_site”, e.g. p.Met1ext-5

“prefix” = 前缀，用p.表示 “Met1” = 正常的翻译起始位点Met1 “ext” = 变化类型是延伸ext “position_new_initiation_site” = 上游新的翻译起始位点-5

Entrez Direct (EDirect)!!! Convert Biosample ID to Run ID

Fri, 01 Apr 2022 10:46:20 +0800

解决：提取Biosample的信息，将Biosample Id转换为SRA Run ID。

我有一个NCBI的biosmaple ID，比如SAMN02324197，我不知道Bio project的情况下，我想知道他的SRR Run ID。最简单的办法是直接在SRA中搜这个biosample的ID，网页中Project，Run的信息都有了。

不过我如果有上百个biosample，来自不同的project，总不能一个一个的查吧。我先是在biostar上的这个https://www.biostars.org/p/97782/看到了EDirect可以查GSE的样本，我就在想能不能查sra的。

我试了一下这个命令，能检索到

> esearch -db sra -query "SAMN02324197"

<ENTREZ_DIRECT>
  <Db>sra</Db>
  <WebEnv>MCID_6243c437ec6f7a20fc0f452a</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>1</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

但是我想提取相关的信息呢，添加了efetch即可

MobaXterm SSHTunnel/v2ray + Switch Omega + Proxifier

Tue, 29 Mar 2022 13:01:20 +0800

这两年在大陆都是用学校的VPN访问外网，但最近VPN太烂太烂了，经常掉线。这怎么能忍，于是我想到了代理。花钱的事我又不干，我又有VPS，不如让VPS当作代理服务器。一共两种方式都可以实现：socks或v2ray。

（1）MobaXterm

我一直用mobaXterm的Portabl版本（https://mobaxterm.mobatek.net/），这几年走到哪都会把mobaXterm的文件夹同步过来，避免每次建立新的ssh。我也一直知道MobaXterm有个Tunneling的标签，于是就研究下了MobaXterm自带的。这个比较简单，我直接在mobaxterm上设置后，就建立了隧道。

主要是建立SSH隧道，需要一个境外的ssh帐号。

（2）V2ray

V2ray虽然高级，但是麻烦啊，还要安装还是配置。我参考的是https://www.v2fly.org/，本地用的是v2rayN （https://github.com/2dust/v2rayN）。

无论是1还是2，都是建立和远程代理服务器的连接，然后设定本地localhost的一个特定端口，通过本地的这个端口访问。

False-positive genes with high frequency mutation

Sat, 19 Mar 2022 12:23:20 +0800

Mutational heterogeneity in cancer and the search for new cancer-associated genes

https://www.nature.com/articles/nature12213

After recognizing the problem of apparent false-positive findings, we reviewed the published literature and found that some of these potentially spurious genes have already been nominated as cancer-associated genes in recently published cancer genome studies: for example, LRP1B in glioblastoma and lung adenocarcinoma; CSMD3 in ovarian cancer; PCLO in DLBCL; MUC16 in lung squamous carcinoma11, breast cancer and DLBCL; MUC4 in melanoma; olfactory receptor OR2L13 in glioblastoma14; and TTN in breast cancer and other tumour types. We therefore set out to understand the source of the problem.

突变mutation signatures

Wed, 16 Mar 2022 12:35:20 +0800

拿到突变的数据之后，一般会先看除了进行突变注释，看突变所在的基因和造成的氨基酸变化，还会看具体的碱基变化类型，共96种，以三个碱基为统计单位，看三联核苷酸中间的碱基变化类型的个数，以C变为A为例（等同负链G变为T），NCN>NAN，N可以为任意碱基，所以有4*4=16种，所有情况为96种。

统计96种突变类型的具体数目，之后会进行突变的signature分析有三种：

与已知的cosmic signature进行比较，看哪些signature比重高
利用非负矩阵分解NFM找novel的signature
分析1和2之后，看novel的signature和已知的signature的相似性

突变的signature是内外部环境共同作用下造成的一些特定的变异特征，这些因素包括DNA修复或者复制缺陷，吸烟饮酒等等。

找cosmic的signature

利用R包deconstructSigs进行

# 假设你有一个数据框，包含了突变的信息，以包自带的sample.mut.ref为例
head(sample.mut.ref)

# Convert to deconstructSigs input，得到96碱基突变数据框
# 指定染色体位置、突变碱基和样本名所在的列名
sigs.input <- mut.to.sigs.input(mut.ref = sample.mut.ref, 
                                sample.id = "Sample", 
                                chr = "chr", 
                                pos = "pos", 
                                ref = "ref", 
                                alt = "alt")

# 提取样本的mutation signature
# 这里的signature.nature2013或者signatures.cosmic就是参考的signature，如果你有自己的signature数据，比如SomaticSignatures包找到的，也可以在这个地方指定，这样就计算的是提供的singature
sample_1 = whichSignatures(tumor.ref = sigs.input, 
                           signatures.ref = signatures.nature2013, # 参考signature 
                           sample.id = 1,  # 样本的barcode 
                           contexts.needed = TRUE,
                           tri.counts.method = 'default' # 是否进行normalzie
                           )
                           
sample_1$weights[1:3]

#  Signature.1A Signature.1B Signature.2
#1            0    0.1564832           0

找novel的signature

利用SomaticSignatures包进行，这里找到的novel signature可以作为参考的signature用deconstructSigs，注意96突变类型数据框的名应一致。

Prognostic versus predictive value of biomarkers

Tue, 15 Feb 2022 12:23:20 +0800

1 A prognostic biomarker provides information about the patients overall cancer outcome, regardless of therapy, whilst a predictive biomarker gives information about the effect of a therapeutic intervention. A predictive biomarker can be a target for therapy. REF: PMID 18396036, “Prognostic versus predictive value of biomarkers in oncology” 2 The term prognostic value refers to a genetic factor’s ability to project the natural history of disease in relation to another factor (such as treatment or environmental exposure or another genetic factor; henceforth referred to as treatment) by discriminating between good versus bad prognosis, thereby providing insights into whom to treat with novel modalities.

群体遗传学中基于Fst&Pi的选择消除分析

Mon, 01 Nov 2021 12:02:20 +0800

Fst衡量群体分化程度

1说明两个population是完全独立的。0说明两个population之间自由interbreeding。Fst值越大，说明genetic distance越远。值越低，说明大多数的genetic variation是发生在同一个population的。

Wright建议，实际研究中，F ST为0～0.05:群体间遗传分化很小，可以不考虑； F ST为0.05～0.15，群体间存在中等程度的遗传分化； F ST为0.15~0.25，群体间遗传分化较大； F ST为0.25以上，群体间有很大的遗传分化。

其中代表 Weir & Cockerham 的 Fst。F 统计量反映了群体结构的变化，它受不同因素的影响，比如突变，遗传漂变，近亲交配，选择作用或 Wahlund 效应（指一个种群中由于亚种群的结构导致的异质性的下降）。在中性进化条件下，F 统计量的大小主要决定于遗传漂变和迁移等因素的影响，如果种群中一个等位基因因为对于特定生境的适合度较高而经历适应性选择，那么其频率的升高会增大种群分化水平，反映在 F 统计量上就是有较高的 Fst 值

肿瘤免疫表型-cold (excluded, desert) and hot

Mon, 11 Oct 2021 05:09:20 +0800

根据免疫状态，肿瘤可以分为hot，肿瘤内外富集免疫浸润淋巴细胞，有明显的免疫浸润性；excluded，免疫细胞没有浸润到肿瘤内部而富集在肿瘤外部，desert，肿瘤不怎么有免疫浸润细胞。

理论上讲，hot tumor更能从免疫治疗获得收益。

Tumor immune phenotypes

C++14 standard requested but CXX14 is not defined

Thu, 09 Sep 2021 08:04:20 +0800

在安装R包的时候遇到报错，C++14 standard requested but CXX14 is not defined

查了很多办法，刚开始是根据https://github.com/stan-dev/rstan/issues/892修改.R下面的Makevars，

但是包另外一个错g++: error: unrecognized command line option ‘-std=c++14’

于是继续查到c++1y这个问题，但依然没有解决问题。

复盘了一下，感觉是gcc的问题，所以升级了最新的gcc

# 系统是CentOS
sudo yum install centos-release-scl
sudo yum install devtoolset-10
scl enable devtoolset-10 bash

但是装包的时候新版的gcc依然不能别识别，所以修改Makevars，最终用了如下的配置,重点是指定了新版的g++和c++的路径，这样问题就解决了

MAKEFLAGS = -j18

## C++ flags
CXX=g++
CXX11=g++
CXX14=/opt/rh/devtoolset-9/root/usr/bin/g++
CXX17=g++

CXXFLAGS=-O3 -march=native -Wno-ignored-attributes
CXX11FLAGS=-O3 -march=native -Wno-ignored-attributes
CXX14FLAGS=-O3 -march=native -Wno-ignored-attributes
CXX17FLAGS=-O3 -march=native -Wno-ignored-attributes

CXXPICFLAGS=-fPIC
CXX11PICFLAGS=-fPIC
CXX14PICFLAGS=-fPIC
CXX17PICFLAGS=-fPIC

CXX11STD=-std=c++11
CXX14STD=-std=c++14
CXX17STD=-std=c++17

## C flags
CC=/opt/rh/devtoolset-10/root/usr/bin/gcc
FLAGS=-O3 -march=native

## Fortran flags
FC=gfortran
F77=gfortran
FFLAGS=-O3 -march=native
FCFLAGS=-O3 -march=native

Take only memories, leave only footprints

Mon, 19 Jul 2021 09:58:20 +0800

用SRA-Explorer辅助下载测序数据

Tue, 01 Jun 2021 10:35:20 +0800

下载数据的时候，偶然碰到了SRA-Explorer，感觉挺好用的，地址：https://sra-explorer.info/

这个页面本身非常小，见https://github.com/ewels/sra-explorer，利用的是SRA API。

检索好之后，选择你想下载的样本，点击Add ** to collection，然后点击右上角saved datasets，页面下方就可以原始的fastq的链接，用curl下载fastq的命令，用aspera下载fastq的命令，还有下载SRA的命令，以及样本的metadata。非常好用。

预测模型校准曲线 Calibration curve

Fri, 21 May 2021 19:34:20 +0800

我们常用ROC曲线来衡量模型的预测能力，但很少关注模型的校准度calibration。

Calibration curve的横坐标是我们用模型预测的probability，比如我预测的是可能是肿瘤患者的概率，risk probability，纵坐标是真实的事件event的概率或者事件的proportion。

特征选择

Mon, 10 May 2021 13:36:20 +0800

特征选择是机器学习中的一个重要步骤，通过特征选择挑选出对预测起重要作用的变量，既可以减少数据的维度，也可以减少计算的消耗，同时也有助于我们对自己的数据的理解。有许多方法都可以应用到特征选择，比如大家常用的LASSO。我在用R做数据分析的时候，看到过这个帖子，进而了解了很多算法，所以对这个帖子进行了翻译，方便自己复习，也方便大家学习。

原文参考： https://www.machinelearningplus.com/machine-learning/feature-selection/

Boruta
Variable Importance from Machine Learning Algorithms
Lasso Regression
Step wise Forward and Backward Selection
Relative Importance from Linear Regression
Recursive Feature Elimination (RFE)
Genetic Algorithm
Simulated Annealing
Information Value and Weights of Evidence
DALEX Package

Introduction

真实的数据中，有些变量可能仅是噪声，并没有多少重要意义。

这类变量占用内存空间、消耗计算资源，我们最好去除这类变量，特别是在很大的数据集中。

有时候，我们有一个具有业务意义的变量，但不确定它是否确实有助于预测Y。还有一个事实：在一个机器学习算法中有用的特征（例如决策树）可能其他算法中（例如回归模型）不被选用或者低估。

同时，有些变量单独预测Y的性能不好，但与其他预测变量/特征组合的情况下却非常显著。比如说有些变量与预测指标的相关性很低，但在其他变量参与的情况下，它可以帮助解释某些其他变量无法解释的模式/现象。

在这些情况下，很难决定包含还是去掉这些变量/特征。

这里讨论的策略可以解决这些问题，同时可以帮助理解对于一个模型而言，变量的重要性与否importance，以及对模型有多少贡献。

重要的一点是，我们最希望使用的变量是既具有业务意义同时也有重要性方面的指标。

我们这里导入Glaucoma 数据集，此数据集的目标是通过63个不同的生理测量指标来预测青光眼的与否。

# Load Packages and prepare dataset
library(TH.data)
library(caret)
data("GlaucomaM", package = "TH.data")
trainData <- GlaucomaM
head(trainData)

将ggplot导出成ppt的R包

Sun, 09 May 2021 15:16:30 +0800

1，export的graph2ppt函数

https://github.com/tomwenseleers/export

export虽然从CRAN下架了，但依然可以通过github的库来安装，devtools::install_github(“tomwenseleers/export”)

Continuous Long Read, subreads and scraps in Pacbio Raw data

Thu, 01 Apr 2021 20:25:23 +0800

Pacbio的工具更新实在是太快了，https://github.com/PacificBiosciences/pbbioconda 原来Is

谈一谈在变异解读过程中用到的几个不太熟悉的预测指标

Wed, 20 Jan 2021 10:25:23 +0800

帅旸谈一谈在变异解读过程中用到的几个不太熟悉的预测指标：

z score

z score：这个指标指的是某个基因对missense的耐受程度，具体是指该基因所期望的missense数比上观察

到的missense数，如果z score>3.09，则认为该基因对missense不耐受，根据公式我们可以看出如果比值越大，则基因对missense越不耐受。利用z score可以在我们使用ACMG指南PP2的时候使用。

REVEL score

REVEL score：ClinGen SVI建议使用REVEL用来预测missense致病性。与其他常用missense致病性预测软件不同，REVEL整合了包括SIFT、PolyPhen、GERP++在内的13个软件的预测结果，对罕见变异的预测结果更加出色。当REVEL score>0.75，<0.15时分别使用ACMG指南PP3和BP4。

GERP++

GERP++ rejected substitutions” (RS) score：GERP++从基因进化速率角度预测位点保守性，具体是指该基因位点所期望的碱基替换次数减去观察到的碱基替换次数，可见分数越大，该位点保守性较强，当GERP++ RS score>6.8时，认为该位点保守。当分析一个不影响剪切的同义突变时，如果RS score<6.8，则可以使用ACMG指南BP7。

dbscSNV score

dbscSNV score：dbscSNV含有两个不同的算法，用来预测变异是否影响截切，一个是基于adaptive boostin，一个是基于Random Forest。当两种算法得分均小于0.6时，则认为不影响剪切。

datapasta

https://github.com/MilesMcBain/datapasta/

还在手工的把excel的数据写成导到R里吗。不管横着还是竖着复制数据，datapasta可以自动、快速的把复制数据转成tibbles, data.frames, 或者 vectors格式。

更详细的参考https://cran.r-project.org/web/packages/datapasta/vignettes/how-to-datapasta.html

Map NM ID to Gene Symbol

Fri, 08 Jan 2021 16:39:23 +0800

新年快乐，21年的第一篇文章。

以前写过映射ENSEMBL ID 和 NCBI ID， http://www.zxzyl.com/archives/736。

日常分析中，我们也会经常遇到其他的ID mapping的工作，这种工作不是基因ID转基因ID，而是转录本的ID转基因ID。

如果用的是refGene的注释，最简单了，直接用下面的命令即可

`1`	`mysql --user=genome -N --host=genome-mysql.cse.ucsc.edu -A -D hg38 -e "select name,name2 from refGene"`

不过我也经常通过解析gtf文件获得，因为gtf有转本的ID，也有基因的symbol或者ID，只要有gtf文件就可以提取。本着不造轮子的精神，我利用的是现成的R包

1
2
3

library(plyranges)
gr <- read_gff("/path/to/gtf/or/gff") %>% select(transcript_id, gene_id, gene_name)
gr <- unique(data.frame(gr))

我也在自己的包里面写了一个函数得到ensembl，refseq，hgnc，gene symbol的对应关系，biomaRt比较慢，可以把结果保存成文件

devtools::install_github("ProfessionalFarmer/loonR")
# 需要安装biomaRt和dplyr
mapping.table <- loonR::get_full_mapping_table()
# 保存mapping.table

Fixation index (FST)

Mon, 02 Nov 2020 21:03:23 +0800

Fixation index (FST) 整理来源 http://www.uwyo.edu/dbmcd/popecol/maylects/fst.html，把这个课程的步骤用表格

Parse gtf

Thu, 01 Oct 2020 01:03:23 +0800

I always use gtf file and retrieve gene information. There isn’t a highly flexible tool to solve my demand. I modified the code from “https://github.com/Jverma/GFF-Parser”, thanks Jverma. This tool will be easier to use.

JC-整合多组学数据的通路富集分析-ActivePathways

Sun, 13 Sep 2020 01:03:23 +0800

我是在这篇文章（Integrative pathway enrichment analysis of multivariate omics data ）中遇到的合并多个p-value的操作。这篇文章是今年发表在NC上。所有的组学或者大规模的数据分析，都需要探索数据背后相关的生物学功能，所以通路富集分析非常普遍。通常的做法是基于单一组学、单一数据集的数据进行分析，随着生物学数据的爆发，大规模多组学数据变得普遍，这篇文章介绍了基于整合的多组学或多数据集的数据进行通路分析的工具ActivePathways。

方法

ActivePathways的方法，如下图：

(a) 需要的输入文件

(1) 基于多组学数据集的基因P-value，传统的富集分析是单组学，只有一列，现在是多组学，对应多列P-value (2) 基因集，这个和其他的通路富集分析一样，用来表示生物学过程和通路

(b)

(1) 用Brown method合并基因的P-values，并且排序，用一个宽松的阈值来过滤检阳性的基因。 (2) 对每个通路，用排序的基因（从第一个开始从少到多作为sub-list）进行超几何检验，并找到最优的sub-list长度。 (3) 基于单一组学的数据进行富集分析，找到支持每个通路的证据。

Combining dependent P-values合并多个检验的p-value

Sat, 12 Sep 2020 18:25:23 +0800

今天在看文章的时候，发现原来p-value也可以合并。比如一个基因在不同组学数据的检验中对应了多个p-value，可以合并成一个。

常用的是Fisher’s method,

![](/wp/f4w/2020/2020-09-11-Fisher method.svg)

-2[ln(P1) + ln(P2) + … + ln(Pi)]符合X2分布（自由度为2k，k为p-value的个数）。

还有Brown’s methods和 Kost’s methods，具体的介绍如下图。

![](/wp/f4w/2020/2020-09-11-Combining dependent P-values.png)

甲基化芯片中的M值和B值

Fri, 11 Sep 2020 06:08:23 +0800

M值和B值的计算公式

https://link.springer.com/article/10.1186/s41241-017-0041-9

The relationship curve between M-value and Beta-value

M值和B值的对应关系

Failed to mount 大容量的RAID组

Mon, 31 Aug 2020 01:22:23 +0800

我们的存储服务器有两组RAID，容量均大于150T，我在mount的时候，提示我

NTFS signature is missing.
Failed to mount '/dev/sdc': Invalid argument
The device '/dev/sdc' doesn't seem to have a valid NTFS.
Maybe the wrong device is used? Or the whole disk instead of a
partition (e.g. /dev/sda, not /dev/sda1)? Or the other way around?

是因为没有分区导致的，分区之后就可以了。分区的命令

# 使用parted命令进行分区,等同parted; select /dev/sdc
parted /dev/sdc 

# 创建分区表
mklabel gpt 

# 使用print命令查看当前分区情况
print 

# 留1M的空余空间，目的是为了让数据块整齐，提高磁盘的运行效率, -1表示分区的结尾  意思是划分整个硬盘空间为主分区
mkpart primary 1 -1 

p  # print的简写

# 使用q命令退出, 
quit 

# 退出之后会提示
会提示Information: You may need to update /etc/fstab.


# 格式化分区，为分区写入文件系统,格式为ext4
mkfs –t ext4 /dev/sdc1 # 格式化分区

# 使用blkid命令，找到 UUID，然后编辑 /etc/fstab，实现自动挂载
vim /etc/fstab

UUID=******	directory	ext4	defaults	0	0

确定物理网口对应的名称以及配置静态IP

Wed, 26 Aug 2020 05:02:23 +0800

确定物理网口对应的名称

在一台ubuntu的机器上，有四个物理网口，我想知道每个网口对应的MAC地址。使用ip a可以看到网口的MAC地址和名称，比如列出了ens1f0, ens1f1, ens4f0, ens4f1。原来的网卡interface都是eth开头，后来改成了enp, ens等。

Names incorporating Firmware/BIOS provided index numbers for on-board devices (example: eno1) Names incorporating Firmware/BIOS provided PCI Express hotplug slot index numbers (example: ens1) Names incorporating physical/geographical location of the connector of the hardware (example: enp2s0) Names incorporating the interfaces’s MAC address (example: enx78e7d1ea46da) Classic, unpredictable kernel-native ethX naming (example: eth0)

那么如何确定机器上的ens1f0对应的哪个物理网口呢，可以用ethtool来实现，ethtool是用于查询及设置网卡参数的命令。用ethtool -p enos1f1，看哪个网口在闪灯，就能确定这个物理网口对应的名称。记得不要插网线。

`1`	`ethtool -p\|--identify DEVNAME Show visible port identification (e.g. blinking)`

如果没有一个网口亮灯，很可能是因为网口不支持，则可以尝试ethtool -t enosf1f1，大概在4秒之后，网口的灯会亮，这个时候就可以确定enos1f1对应的具体的物理网口了。

`1`	`ethtool -t\|--test DEVNAME Execute adapter self test`

很简单的一个命令，知道了就很简单，不知道就很难想到。

cosine similarity

Wed, 17 Jun 2020 05:27:23 +0800

在SNV分析中，我们在算signature和样本mutation spectrum之间的相似性时，会用到cosine similarity。cosine similarity (distance)的公式，其实就是两个向量的夹角的cosine值，计算公式如下

它与欧式距离的差别如下图，cosθ就是similarity，而d则是欧氏距离Euclidean distance。

有些时候，距离也算作一种相似性，因为距离越远，说明两个样本越不相似。Euclidean distance和cosine similarity要根据情况来选择，最重要的是，是否要考虑weight or magnitude，参考下图。

在文本挖掘分析的时候，计算两个文本的相似性，我们可以统计每个词出现的次数，然后计算相似性（距离），因为文章有短有长，如果考虑单词出现的次数，那么字数多的文章一定与字数少的文章不一样（欧氏距离），所以如果我们不考虑这个量（magnitude）的时候，用cosine计算更加合适，结果也与欧氏距离不一样。

基于DNA或RNA的NGS数据进行HLA分型

Sun, 14 Jun 2020 23:09:11 +0800

写这个原因呢，最近又要对样本的HLA分子进行分型，然后看到某公司的微信公众号讲的HLA的分型软件，全文讲了那么多，要么巨难用，要么下载不到，反正不如我自己正在用的这两个。另外一方面，没必要太纠结非常高的精度，除非你用得到。4-digital resolution，我觉得已经够了。

HLA分子

先回顾下百度百科对HLA的介绍（https://baike.baidu.com/item/HLA/9504270?fr=aladdin）：

HLA(human leukocyte antigen ，人类白细胞抗原)是人类的主要组织相容性复合体（MHC）的表达产物，该系统是所知人体最复杂的多态系统。

HLA是具有高度多态性的同种异体抗原，其化学本质为一类糖蛋白，由一条α重链（被糖基化的）和一条β轻链非共价结合而成。其肽链的氨基端向外（约占整个分子的3/4），羧基端穿入细胞质，中间疏水部分在胞膜中。HLA按其分布和功能分为Ⅰ类抗原和Ⅱ类抗原。

HLA-I类分子：内源性抗原的递呈分子， HLA-Ⅱ类分子：外源性抗原的递呈分子

Agilent全外芯片的目标区域下载

Fri, 12 Jun 2020 08:27:23 +0800

安捷伦的全外芯片捕获的目标区域的bed文件是可以下载的，下载网址

https://earray.chem.agilent.com/suredesign

这个网站我没保存过，毕竟用的频率不高，但每次想用的时候还要搜一下这个网站（Σ( ° △ °|||)︴）

注册登录之后，找到Find Design -> SureSelect DNA -> Agilent Catalog Designs，进一步筛选之后，可以下载对应的文件。

立个走完麦理浩径的flag

Sat, 06 Jun 2020 23:17:23 +0800

麦理浩径一共十段，长达100公里，前几段风景比较优美，我只走过二段的一半，我想把十段都走完，先把flag立下（3年实现）。

2019-06-23 走了二段的一部分，景色真的非常好，山径、海岸、溪流、沙滩。又乘坐快艇去了西贡，享受海鲜大餐。

2020-06-20 走完了一段和剩余的二段的一部分。

2020-09-20 走了五段，并从中登狮子山顶Lion Rock Head。

2020-11-08 走了六段全部和七段一半。

2020-11-22 走了三段。

一段和部分二段图片

起点

分类模型的性能评估

Thu, 04 Jun 2020 16:17:23 +0800

最常用的就是灵敏度和特异性，不过还有其他的，比如阴性预测值(negative predictive value, NPV)。

通常，先画一个ROC曲线，计算曲线下面积。ROC上的每个点是特定阈值下，分类的sensitivity和specificity，没多点连起来组成ROC，曲线下面积就是AUC。面积越大越好，如果AUC是1，说明模型能够完全区分要预测的类别。

如果不是1，就要考虑阈值取哪里比较好，这里就涉及到Youden index。Youden index 其实就是为了找到使得sensitivity和specificity之和最大max(sensitivities+specificities)的阈值。

另外就是考虑其他指标来评估分类模型的性能：specificity, sensitivity, accuracy, npv, ppv, precision, recall, tpr, fpr, tnr, fnr, fdr。这些指标可谓琳琅满目，不过这之间有重复的，如下，都是基于tn（真阴）, tp（真阳）, fn（假阴）, fp（假阳）的个数进行计算。

安装黑苹果

Fri, 29 May 2020 16:55:23 +0800

最近电脑老是蓝屏，很是恼人，怀疑是win10系统的原因，重装了好几次还是蓝屏，于是决定装个黑苹果，用macOS系统（装好黑苹果MacOS 10.15 Catalina之后，发现可能是硬盘的问题导致蓝屏的，pity）。总结一下过程，看教程的时候很麻烦，实操一遍之后，回顾一下，其实还是蛮简单的，大致过程和装windows一样，就是多了添加clover引导，方便黑苹果从硬盘引导而不是U盘。下面是总结了一下过程，不是详细，方便以后再装

1，设置好分区

此电脑-管理-磁盘管理

（1）确保格式为GPT格式（GUID）

（2）确保有EFI分区

（3）压缩卷，给空出来的卷新建卷，不要选择格式化这个卷（安装黑苹果的过程中会进行）

（4）这个新建的卷就是安装黑苹果的分区

Hello World

Sun, 24 May 2020 23:00:58 +0800

In May 24, 2020, I decide to re-build this site. Update with Next theme. Just write and think. 我把wordpress的图片都转放在了github上。最近还创建了一个R包的repo，希望能把自己常用的

Google Docs + PaperPile = 提高生产力

Sat, 16 May 2020 11:14:16 +0800

Google Docs的优点：

1，便于协作，多个人可以同时（注意是同时）编辑一个文件，当然有道云笔记，腾讯文档、office 365也可以。 2，可以追踪修订，版本控制 3，虽然office的功能很强大，但平常用的功能，Google Docs都有 4，不用考虑文件同步的问题，有网就有文件，直接编辑即可，实在不行，拿个PAD连个键盘都行 5，可以用插件，比如PaperPile

PaperPile：

我是来到HK之后才接触PaperPile的，和Google Docs配合，插入文件，简直太爽了。我也用百度搜了下看是否有人介绍 PaperPile，很少有介绍的。

可能的原因是大陆用Google Docs不方便，进而不经常用PaperPile。PaperPile有个编辑公司提到 “科研写作在云端:协同写作工具”。这个形容真的是太贴切了，有了PaperPile，感觉文献管理无敌了。

1，插入文献：随便提供文献的网址、题目等，插入即可，简单的不要不要的

2，文献管理：有PaperPile的Chrome插件，随时搜集你喜欢的文献，如果能下载到PDF，PaperPile一并帮你下载好，当然这个需要占用你的Google Drive的空间。你可以设置文件夹，管理不同的文献

3，文献阅读：有时候文献阅读，需要高亮、备注什么的，要用到PDF阅读器，还要考虑电脑间的文件的同步问题，PaperPile最近开发了自己的PDF阅读器，在PaperPile中设置成它自己的阅读器打开文献即可。这样的好处是，只要有网和浏览器，你就可以随时的阅读和标记。这比Endnote什么的方便多了。

Matlab error when running GISTIC

Fri, 27 Mar 2020 13:50:36 +0800

If you instal MCR (MATLAB Compiler Runtime) provided by GISTIC package, may have the following error. This error could disrupt GISTIC. libGL error: failed to load driver: swrast If this situation occurs, rename the file found at " $MATLAB_ROOT/sys/os/glnxa64/libstdc++.so.6" to “libstdc++.so.6.old”, This forces MATLAB to use the OS library. Works for me. Ref: https://ww2.mathworks.cn/matlabcentral/answers/296999-libgl-error-unable-to-load-driver-in-ubuntu-16-04-while-running-matlab-r2013b GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers

Prepare a data frame for sample CNV data

Thu, 26 Mar 2020 13:08:00 +0800

If we want to cluster samples based on CNV data, a dataframe is needed. However, CNV segments in each sample are not the same. Maybe overlap or distinct. I think CNTools package migh solve this challenge. An example is shown as below. The result is a reduced segment data frame.

BiocManager::install("CNTools")
data("sampleData")
seg <- CNSeg(sampleData)
rdseg <- getRS(seg, by = "region", imput = FALSE, XY = FALSE, what = "mean") 
View(rdseg@rs)

对Autoencoder(自编码器)的理解

Sun, 22 Mar 2020 14:18:10 +0800

通常数据的维度太大，可视化很难，也不利用模型的学习。有时候拿到数据做个PCA或者tSNE，就是把维度缩小到2维（当然也可以3维），便于看数据之间的关系。在机器学习中，Autoencoder也是一种降维的方式， Autoencoder输入层的神经元的数目和输出层的神经元的数目必须，而且要保证输出的结果尽最大可能和输入的结果一致。

FPKM转TPM

Sat, 29 Feb 2020 00:59:21 +0800

R code

fpkm2tpm = function(fpkm){
  exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
}
tpm = apply(expMatrix, 2, fpkm2tpm)

可变多聚腺苷酸化Alternative Polyadenylation (APA) 检测

Mon, 03 Feb 2020 00:30:11 +0800

可变多聚腺苷酸化Alternative Polyadenylation (APA)，如下图所示（图片来自参考），在不同的APA信号位点切割，然后添加polyA。这种调控机制属于转录后调控，可能会影响蛋白的序列（发生在编码区），也可能影响蛋白的稳定性（比如非编码区内的miRNA的调控区域）。其实也是可变剪接的一种情况。

常用的软件是Dapars，这个软件现在也有了升级的版本Dapars2。参考： https://github.com/ZhengXia/dapars https://github.com/3UTR/DaPars2 分析流程很相似，Dapars2多了 normalize library sizes 。

统计GTF文件中转录本的长度 Calculate transcript length from gtf file

Mon, 09 Dec 2019 05:37:46 +0800

gtf 文件INPUT

1
2
3

chr1    PacBio  exon    763020  763155  .       +       .       gene_id "XLOC_000001"; transcript_id "TCONS_00000001"; exon_number "1"; gene_name "LINC01128"; oId "PB.5.1"; nearest_ref "NR_047519"; class_code "j"; tss_id "TSS1";
chr1    PacBio  exon    764383  764484  .       +       .       gene_id "XLOC_000001"; transcript_id "TCONS_00000001"; exon_number "2"; gene_name "LINC01128"; oId "PB.5.1"; nearest_ref "NR_047519"; class_code "j"; tss_id "TSS1";
chr1    PacBio  exon    776580  776753  .       +       .       gene_id "XLOC_000001"; transcript_id "TCONS_00000001"; exon_number "3"; gene_name "LINC01128"; oId "PB.5.1"; nearest_ref "NR_047519"; class_code "j"; tss_id "TSS1";

RefSeq的gtf文件

Thu, 05 Dec 2019 04:31:49 +0800

注释有很多版本，比如ensembl，gencode, ucsc known gene, NCBI的RefSeqGene。最近就需要NM id的注释，但NCBI提供的是gff3格式的，而且很乱。用UCSC table browser下载的gtf版本的RefSeq，没有转录本和基因之间的关系，也没有基因symbol。

比如Ensembl，其实Ensembl的gtf挺好用的，不过这次我因为需要NM编号的注释（笨方法是将ensembl id转成NCBI的refSeq的ID，但这不是最优的方法，ID mapping有可能对不上，不如直接用NM的注释）。

1
2
3

chr1    ensembl_havana  gene    11869   14412   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene";
chr1    havana  transcript      11869   14409   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic";
chr1    havana  exon    11869   12227   .       +       .       gene_id "ENSG00000223972"; gene_version "4"; transcript_id "ENST00000456328"; transcript_version "2"; exon_number "1"; gene_name "DDX11L1"; gene_source "ensembl_havana"; gene_biotype "pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; exon_id "ENSE00002234944"; exon_version "1"; tag "basic";

UCSC table browser下载的refGene的gtf，这个文件不对的地方是gene id和transcript id是一个，而我需要gene和transcript的关系

chr1    hg19_refGene    exon    66999276        66999355        0.000000        +       .       gene_id "NM_001308203"; transcript_id "NM_001308203";
chr1    hg19_refGene    start_codon     67000042        67000044        0.000000        +       .       gene_id "NM_001308203"; transcript_id "NM_001308203";
chr1    hg19_refGene    CDS     67000042        67000051        0.000000        +       0       gene_id "NM_001308203"; transcript_id "NM_001308203";
chr1    hg19_refGene    exon    66999929        67000051        0.000000        +       .       gene_id "NM_001308203"; transcript_id "NM_001308203";
chr1    hg19_refGene    CDS     67091530        67091593        0.000000        +       2       gene_id "NM_001308203"; transcript_id "NM_001308203";
chr1    hg19_refGene    exon    67091530        67091593        0.000000        +       .       gene_id "NM_001308203"; transcript_id "NM_001308203";

TCGABiolinks下载TCGA数据做生存分析

Mon, 10 Jun 2019 10:30:37 +0800

以前的工作是全基因组或全外分析，不涉及癌症和生存分析，但现在的工作主要围绕癌症方面，生存分析一定少不了。实验室小伙伴推荐用TCGAbiolinks下载TCGA的数据，于是研究了如何用TCGABiolinks下载TCGA的数据，以下载RNA的count数据为例，并做生存分析。

误删hyper-v的avhdx文件

Sun, 19 May 2019 14:34:05 +0800

因为对hyper-v不是很熟悉，点了一下检查点，生成了一个avhdx文件，这个文件其实后续hyper-v会将其合并到vhdx的虚拟磁盘中。而我当时手贱手工的删除了avhdx文件，导致hyper-v找不到这个文件，vhdx也挂起等待合并，虚拟机迟迟不能启动。

有一种解决办法是文件恢复，但我用了几个文件都没有恢复成。实验室师兄（超级牛）新建了一个虚拟机挂载已有的vhdx文件，尝试用vhdx文件启动，显示不能启动，但在新的虚拟机下没有提示要合并，提示老系统的vhdx还有戏。

于是又新建了一个虚拟机实例，创建虚拟机实例之后，尝试将以前的vhdx文件挂载到新的虚拟机上，重启发现竟然以老的系统启动了。感谢能够启动，避免实验室的数据丢失。

根据结果反推，第一个shimx64.efi和Ubuntu.vhdx都是以前的系统，第二个shimx64.efi新的虚拟机的，硬盘驱动器已经换成了老系统的。

Fusion Gene Annotation

Wed, 15 May 2019 09:45:45 +0800

STAR-FUSION和FusonAnnotator都属于Trinity Trinity Cancer Transcriptome Analysis Toolkit Fusion-finding modules。 CTAT_HumanFusionLib现阶段整合了各种资源帮助分析癌症生物学相关的fusion，同样也鉴别可能在正常样本只能出现的fusion。下载地址：https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/

FusionAnnotator –genome_lib_dir GRCh37_gencode_v19_CTAT_lib_July192017/ctat_genome_lib_build_dir/
–annotate fusions.list.txt fusions.list.txt为star-fusion的结果中的第一列，两个参与融合的基因中间用–连在一起，就可以用FusionAnnotator进行注释，相关的标签会注释到融合基因上。

会有三类标签，每类下面又有很多具体的来源标签： Fusions relevant to cancer biology Individual genes of cancer relevance, which may show up in fusions Red Herrings: Fusion pairs that may not be relevant to cancer, and potential false positives.

通过注释，就可以了解到分析结果中的融合基因是否在其他数据库中出现过，或者可能是和癌症无关的突变。

NIS+NFS+SGE

Thu, 02 May 2019 20:48:43 +0800

需求，把多台服务器组成一个cluster(SGE)，把一台电脑（比如存储）的home文件件共享给其他服务器(NFS)，共用一个home文件夹，并进行用户的统一管理(NIS)。

操作系统为操作系统：CentOS，用virtual box虚拟出来的系统做测试。 server端：10.0.2.5 client或compute端：在同样网段

![](/wp/f4w/2020 /2019-05-02-NSF-SGE-NIS.png)

T细胞，B细胞，抗原，CD4和CD8

Sun, 21 Apr 2019 17:50:08 +0800

T细胞工作原理

T细胞在胸腺中发育后，它们可以在血液或淋巴系统中游走或迁移到体内的不同器官。只要特定的入侵者刺激它们，辅助性T细胞就会产生化学物质。有些化学物质触发B细胞发育成浆细胞，而另一些化学物质则刺激杀伤性T细胞靶向并杀死可能被侵入者感染或癌变的细胞。调节性T细胞有助于控制免疫反应，防止其失控。自然杀伤T细胞也产生化学物质，以帮助调节免疫反应，防止入侵者和肿瘤。在免疫反应结束后，记忆T细胞在体内停留很长一段时间。这样，如果同样的入侵者再次出现，它们就能迅速做出反应，并繁殖产生大量的T细胞来消灭它。

肿瘤细胞免疫逃逸的几种方式

Thu, 11 Apr 2019 19:08:25 +0800

肿瘤中的新抗原neoantigen引起的T细胞介导的免疫监视会影响肿瘤的进化，新抗原的缺失或者抗原呈递功能受损都会导致肿瘤的免疫逃逸。可能有以下几点：

1，DNA水平：通过拷贝数丢失，导致neoantigen也发生丢失

2，RNA水平：抑制包含neoantigen的转录本表达

3，表观水平：沉默编码neoantigen的片断

4，翻译后水平：蛋白质降解，呈递功能缺失等

5，免疫系统的选择性纯化：清除包含neoantigen的肿瘤亚克隆。

想用smrt analysis-2.3的过来看看

Fri, 29 Mar 2019 18:39:05 +0800

最近找smrt analysis 2.3的程序，真是太辛苦了。我不想用SMRT的图形界面，pacbio又把github上的相关项目obsolete了，tofu项目也没了，pbtranscript装起来各种错误，实在要放弃了，还好看到有人做了2.3的docker镜像。用最近的SMRT6.0中的isoseq3的同学可以忽略本文，isoseq3请移步https://github.com/PacificBiosciences/IsoSeq3/blob/master/README_v3.1.md。

一步到位下载hg19基因组文件

Mon, 25 Mar 2019 18:35:20 +0800

hg19对应GRCh37，UCSC提供hg19的参考基因组下载。UCSC的下载地址在ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

需要经过下载每个染色体，然后解压合并成一个整个的基因组文件 ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

其实这样有点浪费时间，还要考虑合并的时候染色体的顺序是否按照1，2，3而不是1，10，11排下来的。目前我知道的最简单的办法的，从GATK bundle中下载。比如hg19整个基因组的文件。下面是一步到位的命令，包括了fasta，fai，dict文件。

`1`	`wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg19/ucsc.hg19*`

Generate Accurate Consensus Sequences from a Single SMRTbell

Fri, 22 Mar 2019 18:23:09 +0800

bax2bam

bax2bam -o mynewbam mydata.1.bax.h5 mydata.2.bax.h5 mydata.3.bax.h5

circus consensus sequence

ccs –minLength=100 myData.subreads.bam myResult.bam

进行CCS由pacbio测序系统决定的，插入序列测多遍之后，可以用来校正随机错误。

SpliceMap官网示例教程

Thu, 21 Mar 2019 18:21:55 +0800

SpliceMap是一个从头开始发现和比对splice junction的工具。它提供高敏感度并且支持任意长度RNA-seq 序列片段read长度. SpliceMap将RNA-seq reads比对到参考基因组上用于发现splicing junctions. 它至少拥有与当前技术条件下其它分析工具同等的灵敏度和特异性。

官网 http://web.stanford.edu/group/wonglab/SpliceMap/manual.html

下载 http://web.stanford.edu/group/wonglab/SpliceMap/download.html

示例教程 https://web.stanford.edu/group/wonglab/SpliceMap/tutorial.html

以官网SpliceMap 3.3.5.2 example (Linux-x86 64bit)为例，介绍如何用来自21号染色体的100k 条100bp的RNA reads寻找junction。

测试是否正常./bin/runSpliceMap，如果报错的话，需要到src文件夹运行 ./install.sh ../bin来安装SpliceMap，运行./install-bowtie.sh ../bin来安装

示例文件夹下面的结构

1
2

ls SpliceMap3352_example_linux-64
all.gene.refFlat.txt  bin  data  genome  INSTALL  LICENSE  output  run.cfg  src  temp

Pacbio三代测序Primary Analysis Data文件夹

Wed, 20 Mar 2019 18:08:34 +0800

三代测序很多年了，刚工作的时候在超算中心做过三代的拼接，没好好研究过之后就再也没接触过，现在要做三代的项目，从头学习，Primary Analysis Data为初步数据分析文件夹，类似下面的文件夹结构

/path/to/secondary/storage/2420294/0011
├── Analysis_Results
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.bax.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.log
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.subreads.fasta
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.subreads.fastq
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.bax.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.log
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.subreads.fasta
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.subreads.fastq
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.bax.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.log
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.subreads.fasta
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.subreads.fastq
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.bas.h5
│   ├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.sts.csv
│   └── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.sts.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.1.xfer.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.2.xfer.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.3.xfer.xml
├── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.mcd.h5
└── m140415_143853_42175_c100635972550000001823121909121417_s1_p0.metadata.xml

主要文件有

bas.h5文件和bax.h5文件

bas.h5和相关的bax.h5文件是PacBio@RS II初级分析（primary analysis）的主要输出文件，这些文件由设备产生到本地存储位置，作为后续SMRT分析软件进行alignment、consensus和variant分析的输入文件。 PacBio@RS II之前，单个bas.h5文件包含了所有测序数据，随着PacBio@RS II升级，通量和read长度都在增加，现在包含一个bas.h5和3个bax.h5文件（1-3.bax.h5）。bax.h5文件包含测序的base call的信息，bas.h5是三个bax.h5的重要指针。用h5dupm -n [movie name].bas.h5命令看一下文件

FILE_CONTENTS {
 group      /
 group      /MultiPart
 dataset    /MultiPart/HoleLookup
 dataset    /MultiPart/Parts
 }

EBI提供HLA序列BLAST

Fri, 14 Sep 2018 15:08:57 +0800

基于我们有的HLA序列，可以和HLA序列的数据库比较，看与哪个HLA allele最相似。

HLA （human leukocyte antigen，人类白细胞抗原）是人类主要组织相容性复合体（major histocompatibility complex，MHC）的表达产物，根据HLA抗原结构、功能及组织分布的不同，分为I类，II类，III类分子，其中I类分子包括HLA-A，-B，-C系列抗原，广泛分布于各组织有核系统表面。

BLAST表示局部比对搜索工具，用来将新的序列与已有的数据库中的序列进行比较，可以发现区域的相似性，进而为功能和进化研究提供线索。 EBI（欧洲生物信息学中心）提供基于IPD-IMGT/HLA（IMGT国际免疫遗传学数据库）数据库的BLAST库。BLAST工具会搜索数据库中的HLA allele的核苷酸、蛋白质及相关对的序列。

HLA BLAST在线服务的链接如下： https://www.ebi.ac.uk/Tools/services/web_ncbiblast/toolform.ebi?tool=ncbiblast&context=nucleotide&database=imgthla

将VCF文件中的突变拆分成SNP和INDEL

Mon, 10 Sep 2018 11:14:45 +0800

VCFTOOLS

得到SNP

`1`	`vcftools --vcf X.vcf --remove-indels --out X.snps --recode --recode-INFO-all`

得到INDEL

`1`	`vcftools --vcf X.vcf --keep-only-indels --out X.indel --recode --recode-INFO-all`

分析带UMI标签的测序数据

Tue, 31 Jul 2018 12:50:00 +0800

分析带UMI标签的测序数据

检测癌组织的低频突变，为了提高检测低频突变的灵敏度，往往进行高深度的测序。但样本之间存在交叉污染，测序有存在一定概率的错误，这些因素会导致高深度测序过程中将假阳性的信号放到，得到假阳性的结果。解决交叉污染的方法，有公司比如IDT采用唯一配对的样本index，只有配对的index中的reads才属于特定样本。解决测序错误的方法，研究人员在建库的时候，先对分子加上UMI碱基，unique molecular identifier -> UMI，然后根据来源于同一个分子的测序数据进行测序错误修正，得到正确的分子序列。两种方法结合可以减少交叉污染提高准确性（https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5759201/）。

如图中所示，左侧一个分子被测了5次，其中第二次有一个测序错误，但该错误并没有在每个测序数据中出现，所以在后续合成一个分子的时候，测序错误被修正，只保留了真正的突变。（https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5852328/）

常规的肿瘤配对测序分析，或者遗传性突变位点的分析，并不需要UMI信息，所以包含UMI的数据分析是需要不一样的分析流程来得到准确的分析结果，其中包括提取UMI分子标签，合并来自同一个分子的测序reads，低频突变检测而非胚系突变检测等。

大致流程为：

什么是ubam文件，为什么ubam文件比fastq文件好

Thu, 12 Jul 2018 15:00:46 +0800

ubam是Unmapped BAM Format，是BAM文件的一个变种，里面的read是未经map的。大部分测序供应FASTQ文件，这是最常见的测序分析的起始文件。FASTQ文件的优势是，压缩比比bam文件好，解压速度快。

但与ubam文件相比，FASTQ并不是最理想的：

1）单个文件更容易分析

在双端测序中，有些软件希望配对的reads放在一个文件中，有些希望配对的文件，有些软件直接根据read在文件中的位置判断read是否配对，当然现在FASTQ通过在文件中加入/1和/2来表明配对的read解决这一问题。在生信分析的时候，一个FASTQ文件往往和另一个FASTQ文件关联配对，比如R1和R2，往往会花费更多时间来验证read是否配对。但如果通过bam文件的话，会更简单。只需要在FLAG这个地方加入对应的值，比如77和141，就能指定。单个文件更加简单，能储存更多metadata的信息。

fastq压缩之后的gzip文件大小与样本数据量

Wed, 20 Jun 2018 14:10:10 +0800

在测序的时候，我们先拿到的是样本fastq压缩后的gzip文件，这个时候可能最关心的是数据量够不够，那么fastq.gz文件大小和测序数据量有什么关系呢。

我用Miseq测序数据（gz文件200M左右），Hiseq panel（gz文件50M左右）和WES测序数据（gz文件4G左右）进行了简单的分析。有意思的地方是，虽然R1和R2的数据量是一样的，解压出来的文件大小是一样的，但R2的gzip文件总比R1大。不管是Miseq还是Hiseq的panel测序，压缩后的R2均大于R1文件，且文件越小，差异越大。

突变注释后的过滤-variant filter

Fri, 08 Jun 2018 14:49:53 +0800

一个全基因组或者全外显子组会产生几万、几十万乃至百万数量的突变。而目标突变往往只有几个或者几十个。我们需要大海捞针似得把我们想要分析的突变找到。突变过滤就是尽可能的将无关突变过滤掉，尽可能的保留目标突变，找出最可能致病的突变。关联性分析则不需要，因为关联性分析根据的是突变在对照和研究人群中的分布。

突变的过滤需要根据分析需要，比如需要寻找一个完全没有研究过的突变，则需要根据dbSNP来过滤等。如果需要寻找新生突变，要同时用到父母双方的突变数据。

常用的过滤条件可以分为一下几类： 1）根据突变频率进行过滤：每个位点的基因型在人群中频率是不一样的，一般来说，在人群中频率高的基因型往往没有致病性，而是背景突变，只是人群中的多态性。通常用到的频率数据库有gnomAD，ESP，ExAC，1000 Genome等，这些项目检测或搜集了从上千到成万的样本数据，并把数据开放给学术界和产业界。一般过滤的阈值有0.05，0.01，0.001等。 2）根据突变位置进行过滤：不同的分析目的，关注的突变并不一样。有人关于调控区域的突变，有人关注编码区的突变，有人关注剪切位点突变等。根据分析目的不同，需要将非关注的区域内的突变过滤掉。如果关注编码区突变，则需要将基因间、内含子、非编码区的突变过滤掉。 3）根据突变类型进行过滤：编码区的突变，有同义突变、错义突变、终止密码子突变等。同义突变虽然可能会导致疾病的发生，导致调控紊乱，但一般分析会将同意突变过滤掉（和分析目的有关，如果想要研究同义突变，则不能过滤）。往往移码突变和终止密码子突变是需要关注的。 4）根据突变危害预测进行过滤：现在有很多算法在预测位点导致的氨基酸变化的危害性，通常这些算法会分析致病的突变所处的区域、氨基酸变化类型等特征，比如PolyPhen、SIFT等，进而预测出检测出的突变危害性。有些算法会分析序列的保守型，预测突变所处区域是否保守，比如PhastCon，保守区域的突变较非保守区域的突变危害性大。此外，还可以根据氨基酸类型的带电性变化进行过滤，或者根据BLOSUM等打分矩阵分值进行过滤。不同的算法预测的危害性不一定一致。一般统计多个算法预测中，预测危害性较大的比例。 5）根据先验知识库进行过滤：注释软件可以注释关联性分析的信息，也可以注释Clinvar相关数据，这些信息在后续的突变位点解读和分析中有很重要的作用。这些信息可以告诉分析人员位点和哪些疾病有关，或者在Clinvar中的致病性评级。可以根据显著性、是否为良性突变、疾病信息等内容对突变进行过滤。 6）根据数据库标识进行过滤：注释软件会注释突变在dbSNP、COSMIC等数据库中的编号。如果研究的疾病非常非常罕见，以往没有研究过，可以尝试寻找非dbSNP数据库中的突变。如果研究和癌症相关的突变，可以寻找COSMIC数据库中出现的突变。 7）根据遗传方式进行过滤：如果疾病呈现家族性分布，可以根据系谱图推断出的遗传类型进行过滤。比如如果是隐形突变，则只考虑病人中的纯合突变。如果有线索指示突变为新生突变，则需要根据父母双方的突变数据，将后代中同样位点的突变过滤掉。 8）根据其他条件进行过滤：突变过滤还可以有其他的方式，最终还是要根据分析目的进行选择。比如有四个散发样本的突变数据，同样的表型，往往寻找四个样本在相同基因内是否都发生突变，或者是否有相同的高危害突变（比如移码突变）。

小试shell中的神器zsh

Mon, 28 May 2018 22:20:37 +0800

很早就知道神器zsh的存在，一直没有用，今天手痒装了一下，哈哈，用起来还不错。

zsh是bash的增强版，可以兼容bash，可谓是shell中的战斗机，非常方便的命令提示、补全、忽略大小写等功能，一个字爽，可参见

https://www.zhihu.com/question/21418449

不过通常zsh配置起来比较复杂麻烦，于是诞生了oh-my-zsh，专门为简化zsh的配置而开发，http://ohmyz.sh，极大的简化了zsh的配置，还是一个字，爽。

BCFTOOLS支持的表达式

Thu, 24 May 2018 15:20:52 +0800

翻译https://samtools.github.io/bcftools/bcftools-man.html#expressions 有效的

VCF文件中的原始突变过滤--filter raw variants in vcf

Mon, 21 May 2018 17:23:43 +0800

Hard filter突变的传统过滤方式

此时VCF文件中的突变，与刚开始下机得到的FASTQ文件类似，称为raw data。此时的突变集合中，有很多假阳性突变，这些突变需要在突变分析之前过滤掉。

传统的过滤方式，直接根据每个突变的注释信息，进行过滤。最直接和最常见的是根据DP标签过滤，即根据该突变位点的测序深度进行过滤。通常，深度越低，支持该突变的reads数目越少，该突变越不可信。还可以根据前面提到的QUAL质量分值进行过滤，分值越低越不可信。Forward reads和Reverse reads的比例。通过，设定一定的阈值，看这些注释信息是高于还是低于该阈值。

GC偏好

Fri, 18 May 2018 15:57:00 +0800

GC偏好

测序中的GC偏好指的是基因组上GC含量在50%左右的区域更容易被测到，产生的reads更多，这些区域的覆盖度更高，在高GC或者低GC区域，不容易被测到，产生较少的reads，这些区域的覆盖度更少。用基因组单位长度的bin中的GC含量作为横坐标，覆盖度作为纵坐标作图，可以明显的看到该趋势。这种趋势在100kb为单位的bin中依然存在。

insert size和fragment size

Wed, 16 May 2018 11:12:15 +0800

**Insert_size = the sequence betwwn adapters **

Fragment_size= Insert_size + Adapters

测序数据的预处理

Thu, 10 May 2018 10:42:26 +0800

测序得到的原始测序序列，里面含有低质量的reads。低质量的reads可能因为flowcell上的cluters不是有单一DNA扩增而来，或者几个cluters混为一起等。还有测序仪在前几个和几个cycle测序质量不好，需要关注一条read的前后几个碱基的质量。如果质量非常不好，测出来的碱基可能为N（无法确定碱基类型）。

此外，原始reads中还包含测序接头等序列。如果一个文库的平常插入长度为450bp的话，不一定每个插入长度都为450bp，如果个别分子插入长度为100bp，双端配对150bp测序的，会将该片断测穿，配对的reads会多包含50bp的index或者SP等序列。为了保证信息分析质量，需要对下机的raw reads 进行精细过滤，得到clean reads，后续分析都基于clean reads进行。

为了提高下一步的比对质量，此时数据预处理的过程主要包括： • 去掉接头，去掉开头和结尾几个碱基中质量不好的碱基 • 滑窗扫描，检查是否有好几个连续碱基质量不好的情况 • 丢弃过短的read • 去接头 • 去掉前端碱基质量低于一定值的碱基 • 去掉后端碱基质量低于一定值的碱基 • 以4bp为窗口滑窗扫描read，如果4个碱基平均质量低于15，则截断 • 丢弃序列长度小于36bp的reads

文件介绍--FASTQ文件格式

Tue, 08 May 2018 21:49:09 +0800

在培训部门同事的时候，发现刚开始学生信的人，只是在学如何运行命令，但对自己手头的文件格式和内容却不了解，这对分析的流程的深入理解和研究是非常不好的，所以刚学习的人，应该在等待分析结果的时候，多去了解下文件的内容，程序的大体算法等，这对以后的工作优化是非常有好处的。本文简单介绍一下Fastq的文件格式，希望新手多查文档，多了解自己接触的东西。

文库构建和测序

DNA分子会通过超声波或者酶被打断成几百碱基的小片段，然后在小片段DNA分子的两端添加接头，便于测序和样本区分。当然现在也有转座酶技术，通过转座酶同时实现DNA片断化和加接头和引物的过程。将文库上机，文库中的DNA分子首先与flowcell上lane中的接头结合，通过桥式PCR进行扩增（cluster簇增长），待达到一定量之后，进行便合成边测序。

遗传解读遇到基因LoF或deletion可以从单倍剂量不足下手

Thu, 03 May 2018 16:48:02 +0800

单倍剂量不足

最近在解读过程中，接触到一个新的名词-单倍剂量不足，它的英文名字叫做Haploinsufficiency。单倍剂量不足指一个等位基因突变或者缺失后后，另一个等位基因能正常表达，这种基因表达翻译后的蛋白水平只有正常的50%，但不足以维持正常的生理功能，导致特定表型出现。

导致单倍剂量不足的愿意可能有多种，比如一个基因的拷贝发生缺失，或者突变导致不能产生正常的mRNA，或者特殊情况下mRNA或蛋白质不稳定导致降解等。

与解读相关的是，单倍剂量不足现象是导致遗传病发生的一个原因，如果一个基因存在单倍剂量不足的机制，loss of fucntion或者gene deletion可能会导致疾病发生。具体到日常解读中，遇到LoF或者gene deletion，我们可以通过查询NCBI的ClinGen和ExAC的pLI（loss-intolerance）来查看基因是否存在单倍剂量不足，进而寻找可能致病的线索。

CoNVaDING和DECoN简评--基于Panel测序的外显子拷贝数变异分析

Wed, 25 Apr 2018 16:53:36 +0800

目的

外显子水平的拷贝数变异和许多疾病有关系，需要检测外显子水平拷贝数变异。

需要解决的实践问题

1）成本问题：如果利用原有测序数据（全外显子测序数据或panel 测序），而不重复进行实验，实现一次测序，解决多种问题 2）灵敏度和特异性的问题：希望在高灵敏度的情况下，获得尽可能高的特异性 3）分辨率：需要外显子水平而非基因组范围内的拷贝数变异

样本

我们测了Coriell的已知有特定基因拷贝数变异的样本作为阳性样本，把正常人的样本作为对照样本

工具

随着分析技术的发展，针对外显子水平的分析工具开始出现，CoNVaDING、DECoN、PureCN、panelcn.MOPS、ExomeDepth、CODEX2，这些软件都利用了外显子区域的覆盖度信息，用参考基因组GC含量校正，然后根据不同算法来识别拷贝数变异。从中选择了两种最新的软件CoNVaDING和DECoN。因为这两种软件不需要配对样本数据，只需提供实验样本和对照样本组即可，另外这两个软件较新。 CoNVaDING利用一组可能的对照样本，并从中选择模式pattern最相似的样本作为对照样本，并对每个基因所有目标区域的depth进行标准化，通过比较阳性样本和对照样本之间计算z score和ratio score判断外显子是否发生拷贝数变异。DECoN则是对ExomeDepth工具进行了优化，而ExomeDepth利用贝塔二项分布来描述特定区域正常样本和对照样本的覆盖度比值，用隐马尔可夫模型来预测。

DECoN 1.0.1 外显子拷贝数检测软件 https://github.com/RahmanTeam/DECoN CoNVaDING 1.2.0 外显子拷贝数检测软件 https://github.com/molgenis/CoNVaDING

GATK Best Practices：通过GATK4 docker运行processing-for-variant-discovery-gatk4.wdl

Thu, 22 Mar 2018 14:56:57 +0800

Run GATK Best Practices for data pre-processing by Cromwell/WDL

与GATK4正式发布的还有WDL（workflow description langaue，https://software.broadinstitute.org/wdl/），WDL将工作流程分为了workflow, task, call, command 和 output。

与以往GATK提供Best practice的PPT介绍不同，现在Broad提供的是Best practice（https://software.broadinstitute.org/gatk/best-practices/）的WDL文件。WDL文件运行通过cromwell运行，并且有json格式的参数输入文件指定WDL文件中流程所需要的参数。比如

sudo java -jar cromwell.jar run workflow.wdl --inputs workflow.inputs.json

我们只需要修改json文件中的参数就可以运行gatk4 Best Practices，而不需要自己去搭建流程，简化了工作量，也遵循了Broad提供的推荐设置和流程。本文只介绍突变检测前的序列比对和recalibrate这部分的GATK best practices,该流程生成了用于variant calling的bam文件。

1，文件准备

WDL文件和json文件 Broad在github上提供了进行突变检测call variant之前的数据处理data proceesing流程，见https://github.com/gatk-workflows/gatk4-data-processing 从github上，我们需要下载两个文件 processing-for-variant-discovery-gatk4.wdl （用于data pre-processing 的 pipeline） processing-for-variant-discovery-gatk4.hg38.wgs.inputs.json（指定WDL的参数文件）

ubam文件： 要求ubam文件中要有RG tag，经过排序sort之后，该文件可以通过picard将fastq文件转换得到

GATK resoure bundle，从中下载GATK需要的dbsnp文件，known site等文件 ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/ https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0/

苏州--参加CBGC遗传咨询年会

Wed, 21 Mar 2018 11:02:36 +0800

有幸跟同事去蹭了中国遗传学协会遗传咨询分会CBGC在苏州召开的CBGC年会，也第一次来苏州。

关于会议

遗传学协会遗传咨询分会一致推动这中国的遗传咨询事业的发展，从标准、体系、人才培养、临床应用，各位专家都倾注心血做事。我是做数据分析的，会接触后续的解读方面的工作，想谈谈解读和咨询这方面的看法。

1，解读不完全等于咨询：解读是遗传咨询过程中的一部分，利用遗传学和临床医学的知识，提供疾病和突变的关系，遗传咨询还涉及诊断前和诊断后与医生和患者之间的沟通，帮助医生确定疾病类型，指导患者优生优育，诊断和预后等。

2，表型很重要：包括遗传咨询和解读，尽可能详细准确的记录患者的表型，搜集患者的家族史信息等其他信息，可以使工作更加有目的性，成功概率大大提高。

3，HPO很好用：基因组内的基因和突变有千千万，如果采用普通的突变筛选方式，比如频率，风险预测等方法，依然会有很多候选突变。根据HPO，可以让我们重点关注特定基因panel，大大减少了候选突变的数目。

4，生信和解读：生信为解读提供线索，解读需要了解生信的线索。生信要尽可能的利用各种信息，缩小候选突变的范围，传统的根据特定指标就将突变过滤的方式太生硬，现在机器学习、大数据技术的发展，为生信的分析提供了一种思路，那就是可以不再依靠单一维度进行hard filter，而且通过多维度建模进行过滤分析。解读应了解生信的基本知识，这样才能更好的读懂生信提供的文件，理解生信的思路，帮助解读更加精准。或许有更好的模型出现，可以预测疾病风险。

5，基因检测不是万能药：现阶段，遗传咨询更多的是涉及罕见病、遗传病的诊断、优生优育等。很多疾病在医院都已经确定疾病类型了，并且有对应的指南进行操作，这个时候再做基因检测，个人觉得是浪费金钱。就好比基因检测和生化检测同样是一种技术和手段，是为了服务医生和患者的，当用其他手段确诊之后，再做基因检测有点浪费。如果疾病在某个人的家族中成家族性发生，又没有找到致病原因，那么可以做基因检测试下。如果医生对某个罕见病不能确定类型，可以从基因的角度试下。但患者也应了解，并不是做了基因检测，就会有针对应的指导就能找到致病原因，精准的指导和现阶段科学的发展有关。 6，再谈关联性位点：当大家都唾弃儿童天赋的时候，难道通过几个关联性风险位点预测癌症风险的项目就是好的？那么请告诉我，在那么多癌症关联位点中，就选选5个点的癌症风险预测和选10个点的癌症风险预测谁更准确？乳腺癌的BRAC1和2的基因检测难道测的是这里面的关联性分析位点？呵呵了，遗传咨询中前提是遗传，撇开遗传谈关联性分析得到的风险位点，都是耍流氓。不要拿几个GWAS位点，就吹的跟算命一样。 7，中国人群数据库：生信分析和数据解读很大程度上依赖数据库的支持，建立中国人群数据库，可以降低VUS意义不明的突变。政府、高校、社会应有意识的建立这些数据库，尽可能的设计完善，搜集多维度的数据，后续才能挖掘出更有价值的东西。

解决 mount: unknown filesystem type ntfs

Thu, 01 Mar 2018 11:14:06 +0800

移动硬盘是ntfs格式的，服务器不能mount，报错 mount: unknown filesystem type ‘ntfs’

解决方法：安装 NTFS-3G，官网 https://www.tuxera.com/community/open-source-ntfs-3g

安装

wget -c https://tuxera.com/opensource/ntfs-3g_ntfsprogs-2017.3.23.tgz
tar -xvzf ntfs-3g_ntfsprogs-2017.3.23.tgz 
cd ntfs-3g_ntfsprogs-2017.3.23
./configure 
make 
sudo make install

挂载

`1`	`mount -t ntfs-3g /dev/sd** /target`

思考：是否升级参考基因组版本

Tue, 27 Feb 2018 14:27:45 +0800

Should I switch to a newer reference？

GRCh38 consists of several components: chromosomal assembly, unlocalized contigs (chromosome known but location unknown), unplaced contigs (chromosome unknown) and ALT contigs (long clustered variations). The combination of the first three components is called the primary assembly. It is recommended to use the complete primary assembly for all analyses.

参考基因组包括chromosomal assembly, unlocalized contigs (chromosome known but location unknown), unplaced contigs (chromosome unknown)和ALT contigs (long clustered variations)，前三个是primary assembly,alt contigs代表的是部分区域单体型的多样性，这些区域过于复杂不能用一条序列表示。

In addition to adding many alternate contigs, GRCh38 corrects thousands of SNPs and indels in the GRCh37 assembly that are absent in the population and are likely sequencing artifacts. It also includes synthetic centromeric sequence and updates non-nuclear genomic sequence.

除了添加了很多alternative contigs，GRCh38更正了数以千计的GRCh37版本中的SNPs和indels，这些SNPs和indels在人群中没有出现过、可能因为测序错误导致。GRCh38版本也包含了人工的着丝粒序列和更新了非核基因组序列。

The ability to recognize alternate haplotypes for loci is a drastic improvement that GRCh38 makes possible. Going forward, expanding genomics data will help identify variants for alternate haplotypes, improve existing and add additional alternate haplotypes and give us a better accounting of alternate haplotypes within populations. We are already seeing improvements and additions in the patch releases to reference genomes, e.g. the seven minor releases of GRCh38 available at the time of this writing. GRCh38大幅提高了识别alternate haplotype的能力，进一步提高了识别alternate haplotype的突变的能力。

BWA的作者Li Heng推荐GRCh37 primary assembly+ALT+decoy组成的参考基因组hs38DH，可以通过bwa下载，见https://github.com/lh3/bwa/blob/master/README-alt.md ：

bwa.kit/run-gen-ref hs38DH

作者的用NA12878做测试的比对结果如下，

1
2
3

Assembly	hs37	hs38	hs38DH
FP	255706	168068	142516
TP	2142260	2163113	2150844

liftover,crossmap进行坐标转换时用到的chain文件介绍

Mon, 12 Feb 2018 21:46:41 +0800

在做基因组坐标转换的时候，用crossmap和liftover的时候，会用到chain file。大家都在讲坐标转换会用到这个文件，却没有讲过chain文件的具体内容（百度和谷歌搜索结果都没有中文介绍，本文应该是第一个）。本文的内容都翻译自UCSC网站，原文https://genome.ucsc.edu/goldenpath/help/chain.html，希望能帮到大家了解这个文件。

UCSC chain文件 http://hgdownload.soe.ucsc.edu/goldenPath/hg38/liftOver/ Ensembl chain文件 https://sourceforge.net/projects/crossmap/files/Ensembl_chain_files/

chain file里面包含许多块alignment的信息（个人觉得可以理解为同源的地方，chain），其中每一块有一个header，记录alignment在两个版本中坐标，以及许多行alignment data line记录具体比对情况。

即每一块有 Header Line 和 Alignment Data Lines组成。形式如下，有两个chain

    chain 4900 chrY 58368225 + 25985403 25985638 chr5 151006098 - 43257292 43257528 1
     9       1       0
     10      0       5
     61      4       0
     16      0       4
     42      3       0
     16      0       8
     14      1       0
     3       7       0
     48

     chain 4900 chrY 58368225 + 25985406 25985566 chr5 151006098 - 43549808 43549970 2
     16      0       2
     60      4       0
     10      0       4

基因组坐标转换工具-以BED文件为例，从hg19转换到hg38坐标

Sun, 11 Feb 2018 11:39:11 +0800

分析时使用的基因组版本，可能会与其他来源数据所使用的基因组版本不一致，需要统一成同一个版本的坐标，才能方便下一步的分析。

常用的有NCBI的Remap在线服务和UCSC的liftover，其实还有很多，本文暂时总结部分工具的用法。以将APOA1的编码区坐标（利用UCSC的genome browser下载，或者下载该文件APOA1.bed）转换为例，从hg19转到hg38版本坐标上。需要注意的是，在使用的时候，需要注意是否支持对应的格式。

	类型	支持格式	地址	推荐指数
Liftover	在线	bed	http://genome.ucsc.edu/cgi-bin/hgLiftOver	一般
Liftover	本地	bed和gff	http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver	推荐
Remap	在线	hgvs，bed，gvf，gff，gtf，Text ASN.1，Binary ASN.1，UCSC Region和VCF	https://www.ncbi.nlm.nih.gov/genome/tools/remap	推荐
CrossMap	本地	SAM/BAM,，Wiggle/BigWig， bed， gff/gtf，VCF	http://crossmap.sourceforge.net/	推荐
picard	本地	interval和VCF	http://broadinstitute.github.io/picard/

hg19、GRCH37、b37、hs37d5介绍和区别

Fri, 09 Feb 2018 15:37:02 +0800

大家经常用UCSC的hg19和NCBI的GRCh37版本的，但还有其他的版本，比如b37，hg37d5，比如在分析NIST的genome in a bottle（GIAB）提供的bam数据时，就遇到了hg37d5的版本，在用GATK的时候会遇到b37版本。

GRCh37

Genome Reference Consortium(基因组参照序列联盟)，由英国Wellcome Trust Sanger研究中心（the Wellcome Trust Sanger Center）、华盛顿大学基因组中心（The Washington University Genome Center）、欧洲生物信息研究所（the European Bioinformatics Institute）和美国国家生物技术信息中心（NCBI）联合组成。

GRCH37版本发布之后，也会有小的更新，比如GRCh37.p2，大的更新比如由GRCh37升级到GRCh38，填补gap，修改部分序列，其目的是提供一个完整的基因组序列assemble。GRCh38已经在2013年发布，多数基因组数据库正在兼容或者更新到该版本。

该版本包含人类chr1到chr22，chrX，chrY，MT染色体以及

“unlocalized sequences”：知道来自哪条染色体但不知道具体位置的序列
“unplaced sequences”：知道来自人类基因组序列，但不知道与染色体的关系
“alternate loci”：来自基因组特定区域，代表该区域序列的多样性 “1” to “22”, “X”, “Y” and “MT"命名比较规范，ENSEMBL， genome browser， the NCBI dbSNP (in VCF files), the Sanger COSMIC (in VCF files),都依照该规范。

下载地址：ftp://ftp.ncbi.nih.gov/genomes/Homo_sapiens

BCL文件与BCL2FAFSTQ程序简介

Wed, 07 Feb 2018 11:34:40 +0800

BCL文件

测序产生的原始文件是BCL（binary base call）文件，测序仪在测序的时候，每个cycle都会测量编码不同颜色的通道强度，并确定最有可能的碱基类型。Real Time Analysis (RTA) 软件会将碱基类型和可信度（一个质量分数）。与FASTQ文件不同的是，BCL文件是实时产生，每个cycle的每个tile都会有一个对应文件，文件放在

<run directory>/Data/Intensities/BaseCalls/L<lane>/C<cycle>.1

文件的命名

s_<lane>_<tile>.bcl

PLOT | 目标区域的测序覆盖度作图

Thu, 01 Feb 2018 15:56:04 +0800

不论是目标区域测序还是外显子组测序还是全基因组测序之后，我们会关注目标区域在特定深度下的覆盖度。比如20X的比例，50X的比例。如果只计算特定深度的覆盖度，我们了解不到其他深度下的覆盖度情况。如果每个都列出来，又不直观，这个时候用图片来表示就非常直观了。

获取统计数据

我们需要知道在每个深度下碱基的比例，这个时候强大的bedtools就出场了。

bedtools coverage -sorted -hist -g genome.file  -b  samp.bam -a target_regions.bed ' grep ^all > samp.hist.all.txt

-hist是为了获取目标区域的总结信息，以all开头，输出每个每个深度下碱基的比例，所以后续用grep ^all来过滤。

-sorted可以节省内存，但需要通过-g跟genome file来指定染色体的顺序。

genome file可以通过awk -v OFS='\t' {‘print $1,$2’} genome.fa.fai > genome.file 得到。

假设我们得到了smp1.hist.all.txt、smp2.hist.all.txt、smp3.hist.all.txt、smp4.hist.all.txt、smp5.hist.all.txt、smp6.hist.all.txt、smp7.hist.all.txt、

作图

# Get a list of the bedtools output files you'd like to read in

print(labs <- paste("", gsub(".hist.all.txt", "", files, perl=TRUE), sep=""))


# Create lists to hold coverage and cumulative coverage for each alignment,
# and read the data into these lists.
cov <- list()
cov_cumul <- list()
for (i in 1:length(files)) {
    cov[[i]] <- read.table(files[i])
    # The value should be 1 at 0X.
    cov_cumul[[i]] <- 1-cumsum(c(0,cov[[i]][,5]))
}

library(RColorBrewer)
cols <- brewer.pal(length(cov), "Dark2")

# Save the graph to a file
png("target-coverage-plots.png", h=1000, w=1000, pointsize=20)

# Create plot area, but do not plot anything. Add gridlines and axis labels.
plot(cov[[1]][2:401, 2], cov_cumul[[1]][1:400], type='n', xlab="Depth", ylab="Fraction of capture target bases \u2265 depth", ylim=c(0,1.0), main="Target Region Coverage")
abline(v = 20, col = "gray60")
abline(v = 50, col = "gray60")
abline(v = 80, col = "gray60")
abline(v = 100, col = "gray60")
abline(h = 0.50, col = "gray60")
abline(h = 0.90, col = "gray60")
axis(1, at=c(20,50,80), labels=c(20,50,80))
axis(2, at=c(0.90), labels=c(0.90))
axis(2, at=c(0.50), labels=c(0.50))

# Actually plot the data for each of the alignments (stored in the lists).
for (i in 1:length(cov)) points(cov[[i]][2:401, 2], cov_cumul[[i]][1:400], type='l', lwd=3, col=cols[i])

# Add a legend using the nice sample labeles rather than the full filenames.
legend("topright", legend=labs, col=cols, lty=1, lwd=4)

dev.off()

Illumina下机FASTQ文件命名规则

Thu, 01 Feb 2018 13:30:16 +0800

FASTQ文件在Illumina下机数据文件夹Data\Intensities\BaseCalls**中，类似SampleName_S1_L001_R1_001.fastq.gz（比如NTC_S11_L001_R1_001.fastq.gz）**

其中被下划线_分为了五个部分。

第一部分：SampleName，样本名，与上机时在Sample Sheet中填写的一致
第二部分：S1，S***，S后跟的数字与样本在Sample Sheet中的顺序一致，从1开始。不能分配到确定样本的read会归到S0（Undetermined_S0）
第三部分：L00*，泳道lane的编号
第四部分：R*，R1表示read1，R2表示read2。R1和R2为paired end reads。同一个样本的配对的FASTQ，只有这个地方不同
第五部分：001，通常为001

Naming

FASTQ files are named with the sample name and the sample number, which is a numeric assignment based on the order that the sample is listed in the sample sheet.

Example:

Data\Intensities\BaseCalls\SampleName_S1_L001_R1_001.fastq.gz

• SampleName-The sample name provided in the sample sheet. If a sample name is not provided, the file name includes the sample ID, which is a required field in the sample sheet and must be unique.

• S1-The sample number based on the order that samples are listed in the sample sheet starting with 1. In this example, S1 indicates that this sample is the first sample listed in the sample sheet.

2018-01-09 GATK 4.0 正式发布

Sat, 20 Jan 2018 20:46:55 +0800

GATK4正式版已经发布，快去体验啦。GATK4在上一年提出开源，并放出beta版本，现在终于姗姗来迟。

GATK4是业界第一次涵盖了胚细胞和体细胞基因型分析中的主要突变类型的基因组分析工具，且已经开源。新版本的GATK为了解决性能瓶颈近乎完全重构，提高了速度和扩展性有不失其过往的准确度。

GATK4包含了备受大家喜爱的pipeline和新工具，汲取了机器学习和神经网络算法的优点。

Picard---RuntimeIOException: java.io.IOException: No space left on device

Wed, 10 Jan 2018 20:13:11 +0800

在用Picard跑sortSam或者markDuplicate的时候，报错

RuntimeIOException: java.io.IOException: No space left on device

提示硬盘空间不足，实际上节点的硬盘空间是够的。这是因为Picard在做这两个处理的时候，会生成临时文件，临时文件默认储存在系统的tmp文件夹。这个文件夹内的文件存储一些程序和软件的临时文件，在RHEL6中，系统自动清理/tmp文件夹的默认时限是30天。可以通过/etc/cron.daily/tmpwatch配置,在Ubuntu中，系统自动清理/tmp文件夹的时限默认每次启动。而全基因组和全外显子组的数据非常大，现在分给系统的空间都很小，导致tmp文件夹写满而报错。

处理方法：

在个人home文件夹下，新建一个tmp文件夹，每次运行picard的时候，指定IO临时文件夹为这个文件夹。

1
2

mkdir $HOME/tmp
java -Xmx2g -Djava.io.tmpdir=$HOME/tmp -jar SortSam.jar SORT_ORDER=coordinate INPUT=input.bam OUTPUT=output.sort TMP_DIR=$HOME/tmp

不能使用~，picard会在工作目录下创建'~‘文件夹。

合并bed文件中的区域

Sat, 06 Jan 2018 23:04:51 +0800

数据分析中会经常用到bed文件，有时候bed文件中的区域有重叠时会影响统计结果，或者没有按照顺序排序时会影响代码的逻辑。合并bed文件或者文件中的区域是经常进行的。

我常用的工具是bedtools的merge功能，官方示例如下：

$ cat A.bed
chr1  100  200
chr1  180  250
chr1  250  500
chr1  501  1000
$ bedtools merge -i A.bed
chr1  100  500
chr1  501  1000

bedtools的merge功能强大的地方，更在于在合并的时候，可以进行一下操作。如下操作，通过-c指定要操作的目标列，-o指定操作动作。

测序中加入Phix的作用

Fri, 01 Dec 2017 23:40:54 +0800

测序建库的时候，会加入一定比例的Phix，那么Phix文库有什么作用呢，我转了两篇文章，方便大家理解。Phix文库最主要的目的1）是调节碱基平衡，改善测序仪的空间校正，便于后期提高base calling的准确性，2）由于Phix序列已知基因组较小，在测序的过程中Illumina的测序仪就开始将测的read与phix基因组进行比较，预估测序指标。我也遇到过，Illumina工程师在维护测序仪时，用Phix文库测试。转载内容详见下文

Calculate phastCon Score for a gene ---- 计算基因的phastCon平均分，判断基因保守型

Fri, 04 Nov 2016 21:45:25 +0800

Calculate phastCon Score for a gene —- 计算基因的phastCon平均分，判断基因保守型

PhastCon socre is the score from 0 to 1 to show the conservation level.

A score showing the posterior probability that phastCons’s phylogenetic hidden Markov model (HMM) is in its most conserved state at that base position.

The phastCons scores represent probabilities of negative selection and range between 0 and 1.

Short highly-conserved regions and long moderately conserved regions can both obtain high scores.

也就是说如果某个位点或者一段序列的phastCon分值高的话，表示保守型较高。

思考---基因组中那些“看起来”很严重的突变往往不致病

Wed, 19 Oct 2016 22:19:28 +0800

在全基因组数据或者外显子数据得到的突变通过注释之后，每个人或多多少都含有一定数目的"看起来"很严重的突变，比如剪切位点上突变，终止密码子突变，移码突变等等（正如《ExAC-外显子组聚合数据库：揭露那些"披着狼皮的羊"基因》标题中的描述———披着狼皮的羊）。

但真实情况是，人并没有疾病表型，或者疾病只与其中的个别突变有关系，其他的突变都没有影响。这是我一直思考的问题，偶然机会，我向业内做遗传咨询的一个博士（感谢）提出这个问题，讨论之后认为主要有以下几点原因：

**一，**很多基因不是必须基因，即使全部删除也不影响机体的正常功能。

**二，**隐性基因即使有一份被破坏，不影响另外一份行使功能。

**三，**如果参考的是文献中的致病突变，有很多是假的。也就说参考文献有可能存在假的结果。

**四，**机体有很强的代偿能力，即使真的是有缺陷的基因，机体也有可能代偿其缺陷而不影响正常机体功能，比如有一些个体携带确定致病的基因突变，表型仍正常。

[转载]蛋白质组学及蛋白质鉴定常用的网站和数据库

Tue, 18 Oct 2016 23:29:11 +0800

PS：我不经常用蛋白质数据库，不过看到这个总结的挺详细的，就转过来了。

一、蛋白质数据库

1.UniProt (The Universal Protein Resource)

网址：http://www.uniprot.org/ http://www.ebi.ac.uk/uniprot/ 简介：由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成，提供详细的蛋白质序列、功能信息，如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等，同时提供其他数据库，包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

Axel - Linux下多线程下载工具

Thu, 29 Sep 2016 12:02:13 +0800

在linux环境下，用wget下载大文件，实在是件痛苦的事情，下载速度慢。这非常的不科学，于是找到了axel这个工具，可以实现在linux下多线程下载。并且可以实现断点续传。 Axel项目网站 https://wilmer.gaa.st/main.php/axel.html

安装

wget -c https://wilmer.gaa.st/downloads/axel-1.0b.tar.gz
tar zxvf axel-1.0b.tar.gz
cd axel-1.0b/
./configure
make
make instal

或者

apt-get install axel 参数 -n 指定线程数 -o 指定另存为目录 -s 指定每秒的最大比特数 -q 静默模式

利用genome music分析癌症样本中显著突变的基因和相关通路

Wed, 28 Sep 2016 20:41:56 +0800

MuSiC the Mutational Significance In Cancer (MuSiC) suite of tools 官网地址 http://gmt.genome.wustl.edu/packages/genome-music/index.html

功能其主要功能

Apply statistical methods to identify significantly mutated genes
Highlight significantly altered pathways
Investigate the proximity of amino acid mutations in the same gene
Search for gene-based or site-based correlations to mutations and relationships between mutations themselves
Correlate mutations to clinical features, using typical correlation measures, and generalized linear models
Cross-reference findings with relevant databases such as Pfam, COSMIC, and OMIM

oncotator对VCF进行注释，并生成MAF格式文件

Tue, 06 Sep 2016 16:00:01 +0800

MAF格式Mutation Annotation Format (MAF) ，是TCGA组织对突变进行注释的格式。一些和癌症分析相关的软件，经常要求MAF格式文件作为输入。而现在经过GATK或samtools检测出突变的格式一般为VCF格式，的注释软件，即使经过SNPEff和annovar注释（当然还有VEP），结果依然为VCF格式或者tab分割的文件等。

MAF中每一列是一种注释信息，由于包含的注释信息太多（详见格式），单纯的通过写脚本转换SNPEff或者annovar的注释文件，会变得非常麻烦而且考虑的问题可能不完全（有人实现过，通过Ensembl的VEP对VCF注释，然后转换，可以在github上搜索到）。

这里介绍注释软件oncotator，可以注释VCF文件，并直接生成MAF格式，相当于将VCF格式转换成MAF格式。Broad institute开发的，用起来放心哈。

Convert gtf to bed12 format --- gtf2bed

Tue, 30 Aug 2016 21:29:32 +0800

Some software requires bed12 format, not gtf/gff. So a convertion work should be done.

bedops gtf2bed

Easy way to get your result —- bedops

gtf2bed < Homo_sapiens.GRCh38.85.gtf ' head
1       11868   14409   ENST00000456328 0       +       11868   14409   0       3       359,109,1189,   0,744,1352,
1       12009   13670   ENST00000450305 0       +       12009   13670   0       6       48,49,85,78,154,218,    0,169,603,965,1211,1443,
1       17368   17436   ENST00000619216 0       -       17368   17436   0       1       68,     0,
1       14403   29570   ENST00000488147 0       -       14403   29570   0       11      98,34,152,159,198,136,137,147,99,154,37,        0,601,1392,2203,2454,2829,3202,3511,3864,10334,15130,
1       29553   31097   ENST00000473358 0       +       29553   31097   0       3       486,104,122,    0,1010,1422,
1       30266   31109   ENST00000469289 0       +       30266   31109   0       2       401,134,        0,709,
1       30365   30503   ENST00000607096 0       +       30365   30503   0       1       138,    0,
1       34553   36081   ENST00000417324 0       -       34553   36081   0       3       621,205,361,    0,723,1167,
1       35244   36073   ENST00000461467 0       -       35244   36073   0       2       237,353,        0,476,
1       52472   53312   ENST00000606857 0       +       52472   53312   0       1       840,    0,

Here we use UCSC’s package to convert gtf format file to bed12 format file.

Download UCSC package

1
2
3

wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/gtfToGenePred
wget -c http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/genePredToBed
chmod 755 gtfToGenePred genePredToBed

topGO包进行-GO富集分析-做有向无环图

Tue, 16 Aug 2016 16:23:15 +0800

GOdata = new(“topGOdata”, ontology = “MF”, allGenes = geneList,annot = annFUN.gene2GO, gene2GO = geneID2GO)

利用topGO进行分析，最重要的是构建topGO对象，构建topGO需要两个参数：

1，topGO需要基因和GO号的对应关系

2，基因列表，用来标记背景基因（所有基因）及差异基因

Ubuntu下安装java和多版本java共存控制

Sat, 06 Aug 2016 12:22:27 +0800

教你通过命令jdk7，jdk8就可以优雅的切换java版本

我在机器上已有java7（java1.7），目前而言java7应该是用的最广泛的，被java8取代还需要一段时间。不过我遇到最新版的picard要求java8版本，才遇到了安装新版java的问题，并且我不想删掉老版本java，我希望很方便的调用。

我查找的方法介绍，大部分都是通过update-alternatives –config java来选择，个人不喜欢这种方法。下面介绍一种比较优雅的方法，通过一个命令就能切换java版本。

更新Bioconductor包--update a Bioconductor package

Mon, 01 Aug 2016 22:07:58 +0800

A package belong to Bioconductor was updated (major revision) and released. I want to use the up to date package while in analysing. I am willing to use the new feature, so I need to update this package. I had tried many ways and many times, and finally found a possible way.

更新Bioconductor中的特定包到最新版本。需要首先更新R，其次更新Bioconductor，最终更新包。

1, First your should update your R version

1
2

sudo apt-get update
sudo apt-get install r-base

This will allow the latest Bioconductor to work compitablly.

2， Second update Bioconductor

1
2
3

>remove.packages("BiocInstaller")  
source("http://bioconductor.org/biocLite.R") 
biocLite()

# this will fix an error: Error: Bioconductor version *** cannot be upgraded with R version *** # install latest BiocInstaller # update Bioconductor

3，Third update your target package

1
2

emove.packages("package-name")   
biocLite("package-name")

# remove old version # install the latest version

思考--在比对时，关于是否将chr_random和chrUn_序列放在参考基因组中的思考

Fri, 29 Jul 2016 15:45:34 +0800

通常认为chr1-22，chrY，chrX和chrM为参考基因组序列，于是包括我在内的很多人，分别下载了25条染色体序列，合并成一个fasta文件，用bowtie2或者BWA构建index，用于下一步的read比对，然后是各种分析（包括突变、转录表达等）。

UCSC下载的HG19版本的整个参考基因组文件http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz中，除还包括chr*random和chrUn序列（暂时理解为补丁序列，真实的补丁序列称呼常见assemble过程，见http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/info/patches.shtml，有fix 和novel patch，这里我们现在只讨论chrrandom和chrUn*）。

The chr_random* sequences are unplaced sequence on those reference chromosomes.

The chrUn_* sequences are unlocalized sequences where the corresponding reference chromosome has not been determined.

当然如果DNA或RNA测序的read比对到chr*random 和 chrUn* 序列上，显示大多数人都不关注这些序列上信息，我想这也是很多人不把chr*random 和 chrUn* 放到参考基因组fasta文件中的原因。但是，chr*random 和 chrUn* 显然是存在的，只不过现在暂时没有确定位置或者后续用于基因组序列更正。

如果参考基因组序列中不包含chr*random 和 chrUn序列，那么原来属于chrrandom 和 chrUn的read则有可能比对到（不是一定）chr1-22，chrX，chrY上的相似区域（这些区域与chrrandom 和 chrUn*中的部分区域相似），造成假阳性比对，后续这些reads提供的信息都是不可靠的。

如果参考基因组序列中包含chr*random 和 chrUn序列，那么来自这些区域的reads则会正确的比对到这个地方，没有假阳性比对，只不过后续分析不需要考虑chrrandom 和 chrUn*即可。

假设有一条read来自chr1_random，
条件                                     比对结果             分析结果
基因组fa文件包含chr1_random序列          比对到chr1_random    后续不考虑
基因组fa文件中不包含chr1_random序列      比对到chr1           造成假阳性<

举个例子，以前，我们确认一个突变是否存在，看覆盖这个点的read上有多少突变的碱基，如果覆盖这个点的read本来属于chr*random 和 chrUn*序列的，但比对到这个地方，即使这个位点的突变碱基再多，也是个假阳性突变，影响后续分析。

AMY-Tree分析Y染色体 ---分类树

Fri, 22 Jul 2016 16:31:16 +0800

AMY-Tree下载地址

https://bio.kuleuven.be/eeb/lbeg/software 解压下载的压缩文件

AMY-Tree输入文件

输入文件的格式要求在解压出来的 Manual （AMY-tree v2.0 User Manual.pdf）里可以看到

Breakdancer------Error: no bams files in config file!

Wed, 06 Jul 2016 18:49:53 +0800

breakdancer在call structure variant的时候，生成的文件中只有一行报错的信息 Error: no bams files in config file!

这是因为breakdancer在call SV之前，要先生成配置文件cfg文件。生成cfg文件的依据，是统计bam文件中paired read的插入长度，read的平均长度等信息。如果bam文件中的read都不是配对的或者很少有配对的，在运行bam2cfg.pl时，就会生成空的配置文件，导致检测不出SV，报 Error: no bams files in config file! 错误。

解决方法：

1，准备正确的bam文件，确保足够的配对读长paired reads，以便生成cfg配置文件

2，同一批样本的插入长度，read平均长度等都差不多，可以将其他文件生成的cfg文件中的 map: 选项后改为你的bam文件。即利用其他bam文件生成的cfg文件，当作要检测SV的bam的配置。

Get the allele frequency of 1000 Genome subpopulation

Thu, 16 Jun 2016 15:36:10 +0800

在1000genome的FTP服务器上可以下载一个all的vcf文件，里面可以看到AFR, AMR, EAS, EUR, SAS人群的allele频率，但是该种族下面的亚群的频率信息需要在http://grch37.ensembl.org搜索得到，比如 http://grch37.ensembl.org/Homo_sapiens/Variation/Population?db=core;r=1:230845294-230846294;v=rs699;vdb=variation;vf=102788013 ，还有一种方式，就是下载包含所有样本的突变信息的VCF文件，利用vcftools计算。

The allele frequency of super population (AFR, AMR, EAS, EUR, SAS, see http://www.1000genomes.org/category/population/) can be obtained from all.vcf.

However, the allele population frequency in subpopulation is not well obtained.

One way is search the web http://grch37.ensembl.org by rs identifier, E.g. http://grch37.ensembl.org/Homo_sapiens/Variation/Population?db=core;r=1:230845294-230846294;v=rs699;vdb=variation;vf=102788013 .

Another way is calculated on your local machine. The following will introduce how to get allele frequency of CHB population in chr1 chromosome. CHB Han Chinese in Beijing

修改MySQL远程访问权限

Wed, 08 Jun 2016 14:35:08 +0800

修改MySQL远程访问权限

`1`	`grant all privileges on . to 'root'@'%' identified by '123456';`

# . 表示允许所有表 ‘root’ 表示允许root用户 ‘%’ 表示任意ip ‘123456’ 表示密码

`1`	`flush privileges;`

刷新

bismark DNA甲基化测序比对-bisulfite-seq

Sat, 21 May 2016 21:58:40 +0800

bismark调用bowtie2进行比对，调用samtools生成bam文件，因此在运行bismark之前，需要安装bowtie2和samtools

请注意，fastq文件要进行质控，比如去掉低质量的reads，去掉adaptor等，可以看本文最下方推荐的PPT,本文不介绍，此外本本只介绍到序列比对，后续的统计分析没有介绍，有兴趣的朋友可以关注swDMR和methykit工具包。

安装bismark

1
2

wget http://www.bioinformatics.babraham.ac.uk/projects/bismark/bismark_v0.16.1.tar.gz
tar -xvzf bismark_v0.16.1.tar.gz

生成转换后的基因组

# --path\_to\_bowtie后面跟的是文件夹
# --verbose 输出log信息
# ./ref 文件夹中有一个基因组fasta文件
# --bowtie2指明用的是bowtie2
./bismark\_v0.16.1/bismark\_genome\_preparation --path\_to_bowtie /home/zzx/bowtie2-2.2.9/ --bowtie2 --verbose ./ref/

因为在重亚硫酸盐甲基化测序中，因为未甲基化的C会变为T，在正链表现为C–>T，但是在负链有C变为T，转换为正链时，即为G–>A，所以基因组需要进行两种转化，才能用于比对。在基因组目录下产生Bisulfite_Genome目录，有CT_conversion和GA_conversion文件夹，这两个文件夹包含转换后的fasta文件和bowtie2建立的索引bt2文件。

fastq中的BS转换后的read与转换的参考基因组比对，得到在参考基因组中的位置，再与原始的参考基因组比较，确定methylate call

Asymmetric trimmomatic output with paired-end sequencing reads

Thu, 12 May 2016 16:28:14 +0800

运行trimmomatic的默认参数

java -jar trimmomatic.jar PE -threads 16 -phred33 sample_1.fastq sample_2.fastq sample_trimmed_paired_1.fastq.gz sample_trimmed_unpaired_1.fastq.gz sample_trimmed_paired_2.fastq.gz sample_trimmed_unpaired_2.fastq.gz ILLUMINACLIP:adapters/TruSeq3-PE-2.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

输出文件中

sample_trimmed_unpaired_1.fastq.gz是sample_trimmed_unpaired_2.fastq.gz的十多倍，异常的大。1文件（forward reads）中unpaired reads非常多，显著多余2文件（reverse reads）中的unpaired reads。

perl: warning: Falling back to the standard locale ("C")

Wed, 11 May 2016 18:02:47 +0800

出现该问题 Falling back to the standard locale (“C”) 因为locales包没有安装或者没有配置。如果你在安装新的包时，出现该问题，先确定locales包是否安装。 apt-get install locales 该

当awk碰到百分号%数值时

Thu, 05 May 2016 15:40:45 +0800

awk可以通过$1,$2等，对数据进行逻辑判断或处理，比如

1
2

> echo -e "1t2n3t4" ' awk '{if($1==1){print $0}}'
1       2

但如果碰到带有百分号%的数据时，则不能直接通过加减乘除进行计算或者判断

1
2

> echo -e "1%t2%n3%t4%" ' awk '{if($1==0.01){print $0}}'
>

因为系统没有将1%转成数值0.01，无法进行判断$1是否等于0.01

样本突变频谱分析和基于突变频谱的热图聚类

Sun, 03 Apr 2016 11:12:46 +0800

对突变频谱（Mutation spectrum）进行分析，可以得知样本各种类型突变（如C:G>T:A）的数量及样本是否具有某种类型突变的偏好性。

单个碱基的替换一共有六种变异类型：C>A/G>T，C>G/G>C，C>T/G>A，T>A/A>T，T>C/A>G，T>G/A>C，有可以根据发生替换的碱基类别分为两大类：颠换transversion，嘌呤与嘧啶之间的替换，转换transition，嘌呤与嘌呤或嘧啶与嘧啶之间的替换。根据各类型点突变的比例，对样本和点突变类型进行聚类分析，可以研究样本点突变类型的偏好和各样本在点突变水平上的相似程度。

1，突变频谱数据准备

从VCF或者Annovar注释之后文件中，提取突变类型，第一列为样本名，第二列为突变类型，命名为type.txt。有来自来个实验的10个样本，分别为S1–S7和CHG。

Name    Type
S5      T>C/A>G
S5      T>C/A>G
S5      C>T/G>A
S5      T>A/A>T
S5      T>C/A>G
S1      C>T/G>A
S1      T>C/A>G
S1      C>T/G>A
S1      T>C/A>G

2，生成突变频谱图

library(ggplot2)
data1<- read.table("/path/to/type.txt",sep='t',header=T,check=F)
f1<- ggplot(data = data1, aes(x = Name, fill = Type)) + geom_bar(position = "fill") + labs(title = "Mutation Spectrum",x = "",y = "Fraction of Mutations") + theme(panel.background = element_blank(), axis.text.x  = element_text(angle=90), text = element_text(size=16) ) 
svg(file="mutation_spectrum.svg")
f1
dev.off()

多线程gzip压缩神器---pigz

Sat, 02 Apr 2016 10:32:10 +0800

Fastq文件为纯文本文件，占用的硬盘空间较大，所以一般都会将Fastq文件压缩成gz格式，很多软件也支持fastq的gz格式输入。我用过python读取gzip，非常方便。单纯的通过gzip的命令压缩fastq，效率非常非常慢，据说是没有利用整个机器的cpu。

于是我就找到了pigz这款神器，可以在压缩数据时，发挥多核多处理器的优势，简而言之就是利用多线程进行gzip任务，比单纯的gzip压缩要快很多，有人测试快了5倍多（因为gzip压缩100G的文件时间是太长了，我也就没有测试）。

pigz

官网 http://www.zlib.net/pigz/

pigz, which stands for parallel implementation of gzip, is a fully functional replacement for gzip that exploits multiple processors and multiple cores to the hilt when compressing data.

安装pigz

wget http://zlib.net/pigz/pigz-2.3.3.tar.gz
tar -xvzf pigz-2.3.3.tar.gz
#如果提示不是gz格式，请尝试  tar -xvf pigz-2.3.3.tar.gz
cd pigz-2.3.3.tar.gz
make
如果报错 pigz.c:(.text.startup+0xca): undefined reference to `deflateEnd' gcc
请在第八行$(CC) $(LDFLAGS) -o pigz $^ -lpthread -lm 后面添加-lz选项，表示link libz

运行pigz

pigz -h 可以看到它的command option。

运行pigz和简单，和gzip的命令差不多，比如

# -c 表示打印到标准输出std，如果没有-c选项，则会生成一个后缀为gz的压缩文件。
pigz -c file > file.gz
# -k 表示压缩后不删除源文件
pigz -k file

用Circos表示基因组上的突变密度

Fri, 01 Apr 2016 22:33:28 +0800

不光是生信，感觉整个生物领域越来越靠图吃饭了。谁的图漂亮，谁的分析就好。好吧，我也承认，图多图漂亮了，确实显得高大上哈。在我眼中图的信息量比较大，能够给人直观的表示，为了说明图的意义，我没把持住，在本文多放了几张和circos图无关的图，见谅。本文有多图，都是本人自己画的，请勿盗图，如果你想知道怎么做或者由更好的表示办法，欢迎留言讨论。

想当年，我为了表示SNP在染色体上的数目分布，用python画了24个图，每个染色体一张SNP的密度分布。那可是我第一次用matplot。

先上我年yi轻qian时做的图，那个时候我都佩服自己能想出可以用图的形式来表示突变的密度，哈哈哈,因为这样就能很直观的看出哪些地方突变频率比较高，突变频率比较高的地方，可能是突变热点区域，在肿瘤研究中常常有意义。

利用ionice命令设置程序的IO调度与优先级

Fri, 01 Apr 2016 21:30:20 +0800

我合并多个文件，用cat将流重定向到一个文件，或者把一个大文件rm掉腾出空间，要进行IO，但如果这个时候服务器有进程进行IO时，同个进程同时进行IO，效率就会很慢。有时候我想把别的进程IO缓一缓，先把合并或者rm的任务有限解决掉，再继续别的进程的IO。

就google了下如何提高效率，查ionice这个命令。

ionice - 获取或设置程序的IO调度与优先级，通过设置命令或进程的IO调度优先级，加快IO效率

命令格式

跟命令时，设置命令的IO调度优先级，跟PID时，设置相应进程的IPD调度优先级。

1
2

ionice [[-c class] [-n classdata] [-t]] -p PID [PID]...
ionice [-c class] [-n classdata] [-t] COMMAND [ARG]...

我也进行了测试，比如在有其进程进行IO工作时，我要在删除Fastq文件（R1文件20G，R2文件21G）时，用法详见下文。

time rm R1.fastq
real    0m37.306s
user    0m0.001s
sys     0m0.300s

time ionice -c 2 -n 0 rm R2.fastq
real    0m2.579s
user    0m0.002s
sys     0m0.682s

可以看到当提高IO的优先级后，效率还是非常快的，当然这暂时牺牲了其他进程的IO。

ionice -h用法

NC编号与对应的染色体

Wed, 30 Mar 2016 21:13:19 +0800

NC编号染色体 NC_000001.10 Chr1 NC_000002.11 Chr2 NC_000003.11 Chr3 NC_000004.11 Chr4 NC_000005.9 Chr5 NC_000006.11 Chr6 NC_000007.13 Chr7 NC_000008.10 Chr8 NC_000009.11 Chr9 NC_000010.10 Chr10 NC_000011.9 Chr11 NC_000012.11 Chr12 NC_000013.10 Chr13 NC_000014.8 Chr14 NC_000015.9 Chr15 NC_000016.9 Chr16 NC_000017.10 Chr17 NC_000018.9 Chr18 NC_000019.9 Chr19 NC_000020.10 Chr20 NC_000021.8 Chr21 NC_000022.10 Chr22 NC_000023.10 ChrX NC_000024.9 ChrY NC_012920.1 ChrM PS：NC编号中的点后面代

wget命令小结

Fri, 25 Mar 2016 23:18:02 +0800

下载文件夹 $ wget -c -r -nd -np -k -L -p -A c,h www.xxx.org/pub/path/

-c 断点续传 -r 递归下载，下载指定网页某一目录下（包括子目录）的所有文件 -nd 递归下载时不创建一层一层的目录，把所有的文件下载到当前目录 -np 递归下载时不搜索上层目录，如wget -c -r www.xxx.org/pub/path/ 没有加参数-np，就会同时下载path的上一级目录pub下的其它文件 -k 将绝对链接转为相对链接，下载整个站点后脱机浏览网页，最好加上这个参数 -L 递归时不进入其它主机，如wget -c -r www.xxx.org/ 如果网站内有一个这样的链接： www.yyy.org，不加参数-L，就会像大火烧山一样，会递归下载www.yyy.org网站 -p 下载网页所需的所有文件，如图片等 -A 指定要下载的文件样式列表，多个样式用逗号分隔

测序正负链和转录翻译正负链概念

Sun, 20 Mar 2016 20:38:26 +0800

测序中的正负链测序之前，要先将序列打断，进行建库。在建库的时候是不区分正负链的，所以在后续测序过程中产生序列也不包含正负链信息。但是，测的r

利用wordcloud R包绘制词云

Fri, 18 Mar 2016 21:43:39 +0800

根据词的频率，以词云的形式展示，更加具有表现力。词在’词云’图中字号越大，重要性也就越高。主要涉及数据的挖掘，和数据的展示（可视化）。

下面的代码为利用wordcloud包绘制上面词云图

install.packages("wordcloud")
> library(wordcloud)
> mydata mycolors  png("wordcloud_packages.png", width=400,height=400, units='in', res=900)
> wordcloud(mydata$词汇,mydata$词频,random.order=FALSE,random.color=T,colors=mycolors,family="myFont3",min.freq=0)
> dev.off()

测试文件下载：TXT

microRNA数据库与预测、功能分析软件大全

Wed, 16 Mar 2016 21:51:13 +0800

1.miRBase: http://www.mirbase.org

miRBase序列数据库是一个提供包括已发表的miRNA 序列数据、注释、预测基因靶标等信息的全方位数据库，是存储miRNA信息最主要的公共数据库之一。miRBase提供便捷的网上查询服务，允许用户使用关键词或序列在线搜索已知的miRNA和靶标信息。

2.miRecords: http://mirecords.biolead.org/

动物 miRNA 的靶相互作用的数据库, 包括人工收集实验验证的, 预测的 miRNA的靶目标. 靶标预测工具DIANA-microT, MicroInspector, miRanda, MirTarget2, miTarget, NBmiRTar, PicTar, PITA, RNA22, RNAhybrid, and TargetScan/TargertScanS.

3.PMRD: http://bioinformatics.cau.edu.cn/PMRD/

PMRD是一个关于植物MicroRNA 数据库，包括了microRNA序列和它们的靶基因、二级结构、表达谱、基因组搜索等等，并且该数据库尝试着整合大量的关于植物microRNA的数据。

FPKM,RPKM,TPM 转载

Sun, 13 Mar 2016 10:32:21 +0800

FPKM：Fragmentsper Kilobase Million，FPKM意义与RPKM极为相近。二者区别仅在于，Fragment 与Read。RPKM的诞生是针对早期的SE测序，FPKM则是在PE测序上对RPKM的校正。只要明确Reads 和Fragments的区别，RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads，Fragments则是指每一段用于测序的核酸片段，在SE中，一个Fragments只测一条Reads，所以，Reads数与Fragments数目相等；在PE中，一个Fragments测两端，会得到2条Reads，但由于后期质量或比对的过滤，有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之，对某一对Reads而言，这2条Reads只能算一个Fragments，所以，Fragment的最终数目是Reads的1到2倍之间。

在衡量基因表现量时，若是单纯以map到的read数来计算基因的表现量，在统计上是一件相当不合理事，因为在随机抽样的情况下，序列较长的基因被抽到的机率本来就会比序列短的基因较高，如此一来，序列长的基因永远会被认为表现量较高，而错估基因真正的表现量，所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。

“Reads Per Kilobase Per Million Reads"，即"每一百万条Reads中，对基因的每1000个Base而言，比对到该1000个base的Reads数”

It used to be when you did RNA-seq, you reported your results in RPKM (Reads Per Kilobase Million) or FPKM (Fragments Per Kilobase Million). However, TPM (Transcripts Per Million) is now becoming quite popular. Since there seems to be a lot of confusion about these terms, I thought I’d use a StatQuest to clear everything up.

These three metrics attempt to normalize for sequencing depth and gene length. Here’s how you do it for RPKM: Count up the total reads in a sample and divide that number by 1,000,000 - this is our “per million” scaling factor. Divide the read counts by the “per million” scaling factor. This normalizes for sequencing depth, giving you reads per million (RPM) Divide the RPM values by the length of the gene, in kilobases. This gives you RPKM.

启动子分析预测数据库

Sat, 12 Mar 2016 23:16:31 +0800

Promoter 2.0 Prediction Server http://www.cbs.dtu.dk/services/Promoter/ 很早之前的预测启动子在线软件，要求输入的gene序列为FASTA格式，可以在线做

Berkeley Drosophila Genome Group http://fruitfly.org:9005/seq_tools/promoter.html 果蝇基因组相关信息，利用神经网络预测启动子序列

McPromoter http://tools.genome.duke.edu/generegulation/McPromoter/McPromoter.html 马尔科夫预测gene的转录其实位点，新版本只提供果蝇

亚效等位基因和超效等位基因

Sat, 12 Mar 2016 10:13:02 +0800

Hypomorph 亚效等位基因，亚等位基因亚效等位基因有基因功能，但功能比正常的要少。这种等位基因通常由于基因损害，更常见的是损害调控这个基因的功能区。通常

Sort VCF by Chr and Pos根据染色体位置对VCF进行排序

Tue, 01 Mar 2016 21:53:23 +0800

对VCF文件中的突变按照染色体和位置进行排序，下面是本人的总结，其中利用bash命令的方法不依赖其他的工具或包。htslib前文中也提到过。

1, Use bash

bash raw.vcf

chr_order="chrMnchr1nchr2nchr3nchr4nchr5nchr6nchr7nchr8nchr9nchr10nchr11nchr12nchr13nchr14nchr15nchr16nchr17nchr18nchr19nchr20nchr21nchr22nchrXnchrY"

cat "$1" ' grep "^#" > .header.vcf
cat "$1" ' grep -v "^#" ' sort -k1,1 -k2,2n > .pre.sorted.vcf
echo -e $chr_order ' while read line
do
    cat .pre.sorted.vcf ' grep "^$line"$'t' >> .header.vcf
done
mv .header.vcf  sorted.vcf && rm .header.vcf .pre.sorted.vcf

2，Use awk and sed

(awk ‘/^#/{print}!/^#/{exit}’ raw.vcf;sed ‘/^#/d’ raw.vcf’awk -F"\t" ‘($1~/^[0-9]+$/){sub("^chr","",$0);print $0}‘‘sort -k1,1n -k2,2n’awk ‘{print “chr”$0}’ ;sed ‘/^#/d’ raw.vcf’ awk -F"\t" ‘($1!~/^[0-9]+$/){sub("^chr","",$0);print $0}‘‘sort -k1,1d -k2,2n’awk ‘{print “chr”$0}') > sort.vcf

3, Use Picard

Sorts one or more VCF files. This tool sorts the records in VCF files according to the order of the contigs in the header/sequence dictionary and then by coordinate. It can accept an external sequence dictionary.

java -jar picard.jar SortVcf I=unsort.vcf O=sorted.vcf

4，Use vcf-sort (in vcftools)

cat file.vcf ' vcf-sort > sorted.vcf

合并VCF文件 Merge VCF file

Mon, 29 Feb 2016 20:47:58 +0800

VCF为variant call file格式，现为标准的SNV突变存储格式。通常情况下，一个VCF文件对应一个样本的突变。但VCF格式同样支持同时在一个文件中表示多个样本的突变，在每一行的最后几列，每一列代表一个样本在特定位点的突变情况，若样本在该位点没有突变，在代表样本的那一列在该位点的记录为.点号。此外，在生成VCF的时候，可以生成包含多个样本突变的VCF。但是要在序列比对生成SAM文件时要加入SM tag用来指定哪些reads属于哪个样本。

多个样本的突变情况用一个VCF文件存储的好处在于，对于发生突变的特定位点，可以迅速了解不同样本在该位点的突变情况。比如下列，最后三列表示三个样本在染色体chrT的525位点的突变情况，

1
2

#对应GT:PL:GQ:AD:DP。其中第一个样本在该位点没有发生突变，第二个样本的基因型为C/C，第三个样本的基因型为G/T。
chrT    515    .    G    C,T    1230.23    PASS    AC=4;AF=1.00;AN=4;DP=76;FS=0.000;MLEAC=2;MLEAF=1.00;MQ0=0;MQ=60.24;QD=33.32;RPA=5,4;RU=CA;SF=1,2;SOR=0.793;STR;set=variant23    GT:PL:GQ:AD:DP    .    1/1:1570,120,0:99:0,40:46    0/2:965,69,0:69:0,23:30

一，vcftools

VCFtools is a program package designed for working with VCF files, such as those generated by the 1000 Genomes Project. The aim of VCFtools is to provide easily accessible methods for working with complex genetic variation data in the form of VCF files.

VCFtools的功能和SAMtools类似，用于处理VCF格式的文件，可用于合并VCF。

VCFtools的输入文件格式为gz格式，需要用bgzip压缩，并用tabix生成index文件。 tabix和bgzip在samtools安装包的htslib-*文件夹中，需要单独安装。首先下载samtools（也可以专门下载htslib包，或者你已经有samtools，看是否有htslib文件夹），进入htslib文件夹中

wget https://github.com/samtools/htslib/releases/download/1.3/htslib-1.3.tar.bz2
tar -jxvf htslib-1.3.tar.bz2
cd htslib-1.3
./configure 
make
make prefix=/path/to/install install

download vcftools，install vcftools

git clone https://github.com/vcftools/vcftools.git
cd vcftools/ 
./autogen.sh 
./configure 
make 
make install

compress, index and merge VCF

bgzip -c "x.vcf" > "x.vcf.gz"
bgzip -c "y.vcf > "y.vcf.gz"
bgzip -c "z.vcf" > "z.vcf.gz"
tabix -f "x.vcf.gz"
tabix -f "y.vcf.gz"
tabix -f "z.vcf.gz"
vcf_merge   x.vcf.gz   y.vcf.gz   z.vcf.gz  > merged.vcf

Get the reference allele based on genomic position

Wed, 24 Feb 2016 21:17:26 +0800

This post will show how to get the reference base of chr1 from 49999 to 500001 (Version: hg19). Please note: different tools has different coordinate (0 start or 1 start).

1, SAMtools

Index reference sequence in the FASTA format or extract subsequence from indexed reference sequence. If no region is specified, faidx will index the file and create .fai on the disk. If regions are specified, the subsequences will be retrieved and printed to stdout in the FASTA format.

1
2
3

$samtools faidx ucsc.hg19.fasta chr1:49999-50001
>chr1:49999-50001
ATA

2, twoBitToFa

$wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/faToTwoBit
$wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/twoBitToFa
$chmod 755 twoBitToFa faToTwoBit 
$faToTwoBit ucsc.hg19.fasta ucsc.hg19.2bit
$twoBitToFa ucsc.hg19.2bit -seq=chr1 -start=49998 -end=50001 temp.out && cat temp.out && rm temp.out
>chr1:49998-50001
ATA

3, UCSC DAS server

1
2

$wget -qO- http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr1:49999,50001 | grep -v '<'
ata

利用biomaRt包下载HGMD公开版的突变位点

Sat, 20 Feb 2016 22:01:07 +0800

前面文章介绍了Ensembl的biomart，相信你对biomart应该有所了解了，在此再介绍一种方法，即通过R语言包biomaRt下载HGMD的数据。

HGMD的最新数据是需要购买授权才行，公开版信息不仅滞后，而且不能下载，不能得到基因组位置，在biostart上看到有人说Ensembl整合了HGMD的公开版，心想能获得公开版的数据也不错，于是采用biomaRt包下载。

各位不要高兴，最终的结果是，只得到了所有突变的基因组位置，未能下到具体的突变类型，以及与表型的关系。不过能下载基因组的位置，也算不错，结合对这些位置的注释，能获取不少信息。如果您对这些位置的利用有更多或者更好的想法，欢迎与我讨论。

1，安装biomaRt包

source("http://bioconductor.org/biocLite.R")
chooseCRANmirror()
chooseBioCmirror()
biocLite("biomaRt")

2，显示ensembl的biomart

library(biomaRt)
listEnsembl()
#如果要显示特定版本的，添加version参数
#listEnsembl(version=78)

安装BioMart Perl及利用BioMart Perl API下载数据

Fri, 19 Feb 2016 23:20:36 +0800

上篇介绍了如何利用ensembl的biomart服务下载ensembl gene id与NCBI entrez gene id的对应关系时，最后一步是保存result。biomart也提供通过biomart-perl，在本地通过perl脚本下载，并通过标准输出到终端上。biomart提供生成好的perl脚本，只需在选择好相关attribute和filter之后，点击中间上方的perl即可。

如何获取Ensembl gene id和NCBI的gene id及与HGNC的对应关系

Wed, 17 Feb 2016 23:12:13 +0800

Ensembl和NCBI都是盛名的基因组研究机构，提供相关的基因组结构注释文件，比如gtf或者gff，但注释的id却不是统一的。比如基因ID，Ensembl有Ensembl gene id，NCBI有entrez gene id。不同的人用的基因注释文件来源不同，就需要进行转换。本文主要讲如何利用Ensembl的Biomart，下载对应关系。

Biomart整合了各种生物学注释数据，提供了易于操作的界面，在线提供批量下载，以加速科学研究。Ensembl已应用biomart提供相关服务。

The BioMart project provides free software and data services to the international scientific community in order to foster scientific collaboration and facilitate the scientific discovery process. The project adheres to the open source philosophy that promotes collaboration and code reuse.

Ensembl的biomart网址为http://asia.ensembl.org/index.html

第一步，选择相应的数据库

选择ensemble gene 83

选择homo sapiens gene

转录组分析新工具流程--HISAT2-stringtie-ballgown

Tue, 16 Feb 2016 22:47:23 +0800

一，HISAT2（Hierarchical Indexing for Spliced Alignment of Transcripts2）

HISAT2是一个对比对RNA-seq reads的快速灵敏的spliced alignment工具，HISAT2支持DNA和RNA比对。针对reads覆盖多个外显子，HISAT其包含两种索引：1，global FM索引，代表整个基因组，2，许许多多的local FM索引，每个索引代表~56,000bp，~55,000个local索引覆盖整个基因组。HISAT基于Bowtie2来处理大多数FM索引。心的索引scheme叫做 Hierarchical Graph FM index (HGFM)。HISAT也支持indel和paire end模式，并且支持多线程和SRA Toolkit。HISAT2官网提到HISAT2是HISAT和TopHat2继承，建议大家从HISAT和TopHat2迁移到HISAT2上来。

HISAT2的优势如图（图片来自HISAT2文章）

)

Illumina测序平台介绍

Sun, 31 Jan 2016 01:52:40 +0800

A short introdution of Illunima sequencing machine, especially for Hiseq.

Illumina测序平台

	HiSeq 2000	HiSeq 2500	HiSeq 3000	HiSeq 4000
Output	500-600 GB	900-1000 GB	630-750 GB	1300-1500 GB
Reads passing Filter	1.7-2 billion	3-3.3 billion	2.1-2.5 billion	4.3-5 billion
Read Length	2 x 100bp	2 x 125bp	2 x 150bp	2 x 150bp
Quality Scores（Q30）	>85%	>80%	>75%	>75%
Run Time	11 days	6 days	3.5 days	3.5 days
Human Genomes per Run	Up to 5	Up to 8	Up to 6	Up to 12
Exomes per Run	Up to 72	Up to 120	Up to 90	Up to 180
Transcriptomes per Run	Up to 40	Up to 67	Up to 50	Up to 100

Hiseq 2500

Hiseq 2500是Hiseq 2000的升级版。其主要的改进点是：Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq2000的每张Flowcell有8个Lane的模式。

通路富集分析计算显著性

Sat, 30 Jan 2016 10:54:42 +0800

富集分析在组学分析中，会得到一组特定意义的基因集，比如差异表达基因集，然后这些基因分布在哪些通路上，是随机分布在各个通路上还是富集在了某个通

Varscan copynumber Recommended Workflow---has beed tested

Tue, 26 Jan 2016 22:34:17 +0800

官网提供的推荐流程错误非常多（年代久远？？），迄今还没有人详细介绍正确的Varscan copynumber Recommended Workflow。本文改正了官网的recommend workflow，提供正确的pipeline供大家一起学习（我相信我是第一个提供完整流程的哈）。本流程的搭建和解决方案来自网络搜索，感谢万能的网络。本文没有对命令和输出格式做过多说明，请参阅官方文档。

varscan可以通过配对的肿瘤和组织样本，看覆盖到同一区域内的reads在肿瘤和组织样本中的差异，来检测肿瘤组织中的CNV。

Varscan提供的命令

java -jar varscan.jar copynumber $normal.pileup $tumor.pileup  out
或
java -jar varscan.jar copynumber $normal-tumor.mpileup  --output-file out

结果如下：

但是该结果只说明了某段区域内，肿瘤和组织depth的差异，区域相连，并没有指明哪个区域是CNV区域，发生了deletion还是insertion等。于是varscan又提供了Recommended Workflow，据说是别人提供给varscan作者的，bug百出惨目忍住。本文会在下文提供正确的流程。在此先提下Recommended Workflow的原理。

原理：

都知道在高通量测序之前，用的是生物芯片。芯片上的每个点都是基因组上的一个marker，通过检测肿瘤样本和组织样本中同一marker荧光强度比值，找到染色体上比值发生改变的位点，然后推荐CNV区域。其中有一种算法，叫做circular binary segment CBS环状二元分割算法（恕我愚笨，不了解这种算法）。R语言包DNAcopy利用CBS和每个marker的lg2ratio，判断那些区域是CNV。那高通量测序varscan的结果如何利用CBS算法呢。从varscan的输出结果可以看出，varscan提供了一定区域内的lg2ratio，Recommended Workflow就将这个区域的起始位点当作这个区域的marker，并与该区域的lg2ratio对应，于是便和芯片检测CNV的方法对接上去了。

PyCharm启动时报failed to create jvm error code 4

Mon, 18 Jan 2016 22:23:33 +0800

pycharm failed to create JVM with error code 4 when launching pycharm. In a ordinary way, you can decrease -Xmx and -XX option value in $IDE_HOMEBINidea.exe.vmoptions. Another way, when pycharm invoking JVM, pycharm depends on its own vm options in VM optioins configuraion file. VM options can be set in JetBrainsPyCharm Community Edition 3.4.1bin. In the direcotry, there is a file named by pycharm.exe.vmoptions. You can decrease the -XX and

CSV格式与tab制表符分割的格式文件相互转换，支持管道操作

Fri, 15 Jan 2016 23:58:23 +0800

Annovar的注释结果，如果输出制表符分割的VCF格式，显得混乱。如果输出为csv格式，方便windows下的用户用excel打开，但不方便数据处理，比如某一列的注释信息中包含了逗号，这种情况就要特别注意。python中有csv模块可以方便的读取csv，推荐使用。

本文写的小脚本主要处理简单的csv格式，亮点在于支持接收标准输入和标准输出，方便生物信息多命令之间通过管道进行处理。如果没有指定输入文件，则读取管道流数据，如果没有指定输出文件，则可以用管道接收数据进行下一步处理。

比如 cat xxx.csv ' python convert.py ' grep "xx" > result.txt 或者 python convert.py -i input.csv ' grep "xx" > result.txt 或者 python convert.py -i input.csv - o result.txt 查看用法 python convert.py --help

统计覆盖到某一区域的reads数目和reads的GC含量

Tue, 12 Jan 2016 22:19:45 +0800

statistic GC content by interval. BED format file include arget interval information. BEDTool statistic read number and extract sequence, awk statistic GC content.

bedtools map -a interval.bed -b sample.bam -c 10,10 -o count,concat | awk -v OFS="t" '{n=length($5); gc=gsub("[gcGC]", "", $5); print $1,$2,$3,$4,gc/n}'

思路：利用bedtools的map工具，首先找到map到interval.bed中的每个interval的reads的序列，然后统计这些序列中有多少GC。

预测突变危害的SIFT和PolyPhen2数据库介绍--SIFT and polyphen2 introduction

Tue, 12 Jan 2016 13:12:23 +0800

SIFT分数介绍：

SIFT sorts intolerant from tolerant amino acid substitutions ：通过寻找近似的序列，进行比对，计算发生碱基替换的概率，小于0.05被认为是有害的。

SIFT takes a query sequence and uses multiple alignment information to predict tolerated and deleterious substitutions for every position of the query sequence. SIFT is a multistep procedure that (1) searches for similar sequences, (2) chooses closely related sequences that may share similar function to the query sequence , (3) obtains the alignment of these chosen sequences, and (4) calculates normalized probabilities for all possible substitutions from the alignment. Positions with normalized probabilities less than 0.05 are predicted to be deleterious, those greater than or equal to 0.05 are predicted to be tolerated.

SAMtools自带的统计命令--idxstats、stat、flagstat、bedcov和depth命令

Mon, 11 Jan 2016 22:51:33 +0800

SAMtools不仅仅用来call snp。从samtools的软件名就能看出，是对SAM格式文件进行操作的工作，比如讲sam转成bam格式，index，rmdup等等。samtools结合linux命令比如grep，awk和SAM格式描述的flag，tag，亦是非常非常非常强大，比如根据flag过滤duplicate的reads，根据XA tag过滤multiple hit的reads。本文在此只介绍一下samtools的统计命令，能快速对bam文件进行各种统计。

samtools的自带的几种统计工具

**samtool idxstats **

检索和打印与输入文件相对应的index file里的统计信息，所以要对输入的bam文件进行index

reference sequence name, sequence length, # mapped reads and # unmapped reads chr1 249250621 4998344 1005 chr2 243199373 3020248 595 chr3 198022430 2418804 449

samtools bedcov

计算覆盖到每个区域的总碱基数目

chr start-1 end totalbase chr1 100000 1000000 1709228 chr2 2000000 65885852 64362582

**samtools depth **

计算每个位点的深度

#chr pos depth chr1 1 5 chr1 2 5

samtools flagstat

根据flag统计多少map的reads等信息 43444444 + 0 in total (QC-passed reads + QC-failed reads) 5863846 + 0 secondary 0 + 0 supplementary 0 + 0 duplicates 43431948 + 0 mapped (99.97%:-nan%) 37580598 + 0 paired in sequencing

SAM文件中的soft clipping和hard clipping

Mon, 11 Jan 2016 22:17:55 +0800

clipped alignment因为着在比对过程中，并没有用到全部的read的序列，read两段的序列被截取了（clip or trim）。如下表示，即为clip alignment。

Alignment:

Read:          ACGGTTGCGTTAA-TCCGCCACG
|                           ||||||||| ||||||
Reference: TAACTTGCGTTAAATCCGCCTGG

与clipped alignment对应的是spliced alignment，即read的中间没有比对到而两段比对上了。对应的表示如下：

Alignment:

Read:          ACGGTTGCGTTAAGCTCATCCGCCACG
|                 |||||||||||||         |||||||||
Reference: ACGGTTGCGTTAA…..TCCGCCACG

clip alignment对应的CIGAR表示有两种S （soft clip）和H （hard clip）。 BWA提到If the read has a chimeric alignment, the paired or the top hit uses soft clipping and is marked with neither 0x800 nor 0x100 bits. All the other hits part of the chimeric alignment will use hard clipping and be marked with 0x800 if option “-M” is not in use, or marked with 0x100 otherwise.

即如果发现嵌合比对，最好的比对top hit标记为soft clipping，其余的则标记为hard clipping。

如果是hard clip，则截取的部分不会在SAM文件对应的read中出现 (clipped sequences not present in SEQ)，如果是soft clip (clipped sequences present in SEQ)，则会出现。

Linkage versus association--连锁与关联的区别---reprinted

Mon, 11 Jan 2016 22:15:00 +0800

很多人在做关联分析，很多人在做连锁分析，其原理都是从遗传上找与表型相关marker。但两者是有区别的，特意转载下图，看到这幅图，你一定会对连锁和关联的区别有清楚的认识。

![](/wp/f4w/2020/2016-01-10-Linkage versus association.jpeg)

人基因组每条染色体的GC含量GC content of human chromosomes

Sun, 10 Jan 2016 22:04:53 +0800

The GC content is the molar ratio of guanine+cytosine bases in DNA. The human genome is a mosaic of GC-rich and GC-poor regions, of around 300kb in length, called isochores. GC content is an important factor in many experiments and bioinformatic analysis. This is especially true for next-generation sequencing where the DNA being sequenced has gone through multiple rounds of PCR amplification.

高通量质控统计软件包Rqc--Quality Control Tool for High-Throughput Sequencing Data

Sun, 10 Jan 2016 13:57:37 +0800

在得到下机数据之后，首先会对下机数据进行质控，并对碱基质量碱基分布等进行统计和绘图，得到质控报告。大家常用的质控软件有Faxtx tookit，fastqc，Trimmomatic 等，但出图要么是自己根据统计结果自己画图要么是用fastqc的图。个人觉得fastqc的图有点土，于是找到了Rqc包，顾名思义R quality control。发现国内没有人介绍该包，在此向广大人民群众推荐该包。

Rqc包的介绍网址在http://www.bioconductor.org/packages/release/bioc/html/Rqc.html

有两种安装方式

一种是通过bioconductor

`1`	`source("http://bioconductor.org/biocLite.R")`

如果下载包的网速非常慢，请更换镜像chooseBioCmirror()

`1`	`biocLite("Rqc")`

另一种方式是通过github

install.packages("devtools")
library(devtools)
install_github("labbcb/Rqc")

Rqc包自带测试数据用于测试Rqc：
library(Rqc)
folder rqc(path = folder, pattern = ".fastq.gz")

结果输出如下：

read质量分布Per Read Mean Quality Distribution of Files

![](/wp/f4w/2020/2016-01-10-Rqc-intro/Per Read Mean Quality Distribution of Files.png)

PCA主成分分析和NMF非负矩阵分解感悟

Sun, 10 Jan 2016 01:41:52 +0800

以前只了解PCA分析，这两天看到有用非负矩阵分解NMF提取肿瘤突变特征的，遂了解了下NMF。我关注的是如何理解这两种分析，实现的话，可以找相应的R包Python包来做。

样本数：M 属性数：N 如果属性N过多话，数据存储占地方，直接分析N个属性也看不出什么，所以要降维，要研究重点。

维数由N降到X，比如降到两维

PCA分析通过分解协方差矩阵，找的是N个属性中对方差贡献靠前的X个属性，即能解释大部分variance。样本1=0.5属性1N1+0.2属性1N4 样本2=0.5属性1N2+0.2属性2N4

NMF分析找的是X组包含对N个属性的加权值（或系数）的向量（每个属性的分解成由X个特征表示）， MN=MX x XN，MN为原始矩阵，MX为基矩阵（每一列对应X组特征的基值），XN为系数矩阵（每一行为一组特征）。最终还是利用了N个属性，但是利用的X组特征，每一组特征包含不同权重的N个属，X组特征共同对原始值有贡献（贡献的强度不同而已）。样本1=0.5特征a+0.2特征b+0.3特征c 样本2=0.1特征a+0.2特征b+0.7特征c

PCA主要用于降维 NMF应用于非负的矩阵，一是可以降维，二还可以提取特征，看哪些特征贡献大。

参考阅读： http://www.cnblogs.com/zhangchaoyang/articles/2222048.html http://blog.csdn.net/acdreamers/article/details/44663421

BreakDancer检测结构突变SV实战

Sat, 09 Jan 2016 01:26:21 +0800

一，介绍

BreakDancer包含两个互补的程序：BreakDancerMax和BreakDancerMini。

BreakDancerMax根据二代测序read比对时，出现的异常比对，预测插入，缺失，倒位，染色体间或染色体内易位等五种结构突变。

BreakDancerMini则侧重于检测small indel。新版本的breakdancer已经不在包含BreakDancerMini，作者推荐使用Pindel检测small indels (10-80 bp)。

项目地址：https://github.com/genome/breakdancer http://breakdancer.sourceforge.net/

二，安装

BreakDancer利用跨平台编译工具cmake进行编译,如果没有安装cmake，要先安装cmake $ sudo apt-get install cmake

git clone BreakDancer项目到本地，–recursive要添加，因为添加这个参数之后，BreakDancer引用的其他模块才会一并克隆到本地。modules说明在.gitmodules文件中。

$ git clone --recursive https://github.com/genome/breakdancer.git

创建build文件夹，并进入

$ cd breakdancer 
$ mkdir build 
$ cd build

执行cmake命令，指定编译发行版，并制定安装路径

$ cmake .. -DCMAKE_BUILD_TYPE=release -DCMAKE_INSTALL_PREFIX=/usr/local

编译

$ make 
$ sudo make install

有些教程提到要将samtools的路径添加到系统变量中，即在~/.profile或者~./bashrc中export PATH="${PATH}:/path/to/samtools。因为本人的服务器samtools本来就在环境变量中，所以没有设置，我在后续运行过程中发现breakdancer会调用samtools，所以请确保samtools在环境变量中。

在/path/tp/breakdancer/build/bin的目录下，会看到breakdancer-max。运行下试试，是不是正确输出了用法啦。

$ ./breakdancer-max

breakdancer-max version 1.4.5-unstable-66-4e44b43 (commit 4e44b43)

Usage: breakdancer-max

Options:
-o STRING operate on a single chromosome [all chromosome]
-s INT minimum length of a region [7]
-c INT cutoff in unit of standard deviation [3]
-m INT maximum SV size [1000000000]
-q INT minimum alternative mapping quality [35]
-r INT minimum number of read pairs required to establish a connection [2]
-x INT maximum threshold of haploid sequence coverage for regions to be ignored [1000]
-b INT buffer size for building connection [100]
-t only detect transchromosomal rearrangement, by default off
-d STRING prefix of fastq files that SV supporting reads will be saved by library
-g STRING dump SVs and supporting reads in BED format for GBrowse
-l analyze Illumina long insert (mate-pair) library
-a print out copy number and support reads per library rather than per bam, by default off
-h print out Allele Frequency column, by default off
-y INT output score filter [30]

ubuntu下升级更新R版本

Thu, 07 Jan 2016 22:56:16 +0800

虽说用最早知道R是在大学的时候，那个时候因为生物信息的人都会R。实际上，我倒现在都不会R，一直在用JAVA，现在也转到python上了。感觉做转录组的牛人用R比较多。我也在计划学下R，毕竟很多统计和作图的包都是R包。

废话不多说了，为什么我不会R，却还要发这个帖子呢，因为我在做Fastq文件质控的时候，需要一个R包，我不会写R，但是会照猫画虎的用哈，不过在安装这个包的时候提示我package not available for R。当时想，是不是服务器上的版本有点老啊。于是弱弱的用百度搜了下，竟然有人说要先卸载再安装。我想，这不科学啊，还是谷歌了一下。

上干货

1，这一步的目的是添加cran到apt的源中，cran也可以换成其他的。

sudo echo "deb http://mirrors.aliyun.com/CRAN/bin/linux/ubuntu/ trusty/" >> /etc/apt/sources.list

2，从公钥服务器上获得缺失的公钥，公钥服务器也可以换成其他地方的。Fetch the secure APT key

gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9
或者
gpg --hkp://keyserver keyserver.ubuntu.com:80 --recv-key E084DAB9

4，导入公钥 Feed it to apt-key

gpg -a --export E084DAB9 ' sudo apt-key add -

5，

sudo apt-get update && sudo apt-get install r-base

然后完成R语言的更新。

SNPedia 资源介绍

Wed, 06 Jan 2016 20:56:41 +0800

SNPedia: http://www.snpedia.com/index.php/SNPedia

SNPedia是一个基于wiki格式SNP数据库
创建者：遗传学家 Greg Lennon和程序员Mike Cariaso
关注SNP与医学，谱系，表型的联系
内容由用户添加或机器自动搜集

高通量测序领域PPT中常用的两张图cost_per_genome_megabase

Fri, 25 Dec 2015 21:29:26 +0800

When I in senior high school, the Human Genome Project (HGP) was comparable with Project Apollo for human beings.

我上高中的时候，生物课本上有关于人类基因组计划的介绍。那个时候人们以为将人类的基因组序列搞清楚之后，就可以破译生命的奥秘。人类基因组计划耗费了很长时间很多年，但人类还是无法掌握生命的奥秘，更不知道这项工程还有多大价值。

但正是因为这项计划，促使科技的进步使得高通量测序技术出现，发展，普及。现在的生物学研究，已经离不开高通量测序，测序带来的信息量是前所未有的。正是这前所未有的信息和数据，才显得那么迷人。

ControlFreec检测CNV

Fri, 11 Dec 2015 21:34:40 +0800

1,下载control freec

地址：http://bioinfo-out.curie.fr/projects/freec/src/FREEC_Linux64.tar.gz

2，编译

tar -zxvf FREEC_Linux64.tar.gz
make

3，control freec根据配置文件进行工作，运行control freec之前需要进行的准备工作有

Python抓取动态网页

Mon, 16 Nov 2015 20:39:10 +0800

生物信息学中，David（the Database for Annotation,Visualization and Integrated Discovery）是常用的注视工具，可以对基因进行GO注释，KEGG pathway注释等，David提供接口供批量注释调用。

David的网址https://david.ncifcrf.gov/，api介绍https://david.ncifcrf.gov/content.jsp?file=DAVID_API.html

不是生物信息学的朋友，可以重点关注分析思路。以Entrez gene id为1002的基因为例，返回GO，interpro等注释信息的api格式为

http://david.abcc.ncifcrf.gov/api.jsp?type=ENTREZ_GENE_ID&ids=1002,&tool=annotationReport&annot=GOTERM_BP_FAT,GOTERM_CC_FAT,GOTERM_MF_FAT,INTERPRO,PIR_SUPERFAMILY,SMART,BBID,BIOCARTA,KEGG_PATHWAY,COG_ONTOLOGY,SP_PIR_KEYWORDS,UP_SEQ_FEATURE,GENETIC_ASSOCIATION_DB_DISEASE,OMIM_DISEASE。

用python应用urllib2的包，抓取上述网页的结果为

八声甘州·对潇潇暮雨洒江天

Wed, 12 Aug 2015 18:44:11 +0800

作者：柳永- 宋对潇潇暮雨洒江天，一番洗清秋。渐霜风凄紧，关河冷落，残照当楼。是处红衰翠减，苒苒物华休。唯有长江水，无语东流。不忍登高临远，望

三代测序组拼接组装工具Falcon

Tue, 28 Jul 2015 18:47:41 +0800

基因组装配工具Falcon工作流程

1 Falcon简介

Falcon (Fast Alignment and CONsensus)，是由PacBio(太平洋生物科技公司)新开发的二倍体基因组从头拼接组装工具，由HGAP（Hierarchical Genome Assembly Process）扩展而来，但拥有更快的拼接组装效率。 Falcon的正常运行，需要DAZZ_DB模块用来构建序列的数据库，DALIGNER模块进行序列比对寻找序列之间的重叠和pypeFLOW模块记录和追踪流程进度。

Update LinuxRHEL yum source to 163 mirror--更新yum源为163的镜像

Sun, 17 May 2015 20:47:44 +0800

open source mirror of 163: http://mirrors.163.com/

as a root user

cd /ect/yum.repos.d 
wget http://mirrors.163.com/.help/CentOS5-Base-163.repo
yum clean all
yum makecache

But an error occurs:

1
2

> Timeout on [http://mirrors.163.com/centos/6Server/os/x86_64/repodata/repomd.xml](http://mirrors.163.com/centos/6Server/os/x86_64/repodata/repomd.xml "http://mirrors.163.com/centos/6Server/os/x86_64/repodata/repomd.xml")
> PYCURL ERROR 22- The requested URL returned errer: 404

I can’t find this directory in 163’s webserver (but I do find http://mirrors.163.com/centos/6/os/x86_64/repodata/repomd.xml), so I guess some thing wrong in .repo file.

As for me, I changed all

`1`	`baseurl=http://mirrors.163.com/centos/$releasever`

`1`	`baseurl=http://mirrors.163.com/centos/6`

在Mac上安装cirocs，在Mac上安装perl GD模块

Fri, 08 May 2015 08:38:25 +0800

久闻Circos作图高大上，今天一师兄让我帮他用circos画个图，便试着在Mac安装Circos。Circos是作图软件，需要GD Graphics库，关于如何在Mac上用perl安装GD，可以直接看两行星号之间的内容。

单细胞测序技术及应用进展-Single Cell Sequencing Technology and Its Applications Progress

Tue, 05 May 2015 21:19:31 +0800

如有引用和转载，请告知。

同一组织中的细胞往往被认为是具有相同状态的功能单位，传统的检测手段分析的是细胞群体的总体平均反应。然而通过对单个细胞的DNA或RNA进行测序，表明组织系统层面的功能是由异质性细胞构成。单细胞测序以单个细胞为单位，通过全基因组或转录组扩增，进行高通量测序，能够揭示单个细胞的基因结构和基因表达状态，反映细胞间的异质性，在肿瘤、发育生物学、微生物学、神经科学等领域发挥重要作用，正成为生命科学研究的焦点。单细胞测序的难点是单个细胞的分离、单细胞基因组和转录组的扩增。本文主要介绍和分析了单细胞测序技术中常用的单细胞分离技术、单细胞基因组扩增技术和转录组扩增技术及其优缺点，并对当前已经取得成果的应用领域进行了阐述，为单细胞测序技术的研究与应用提供参考。关键词：单细胞；分离；扩增；应用

Individual cells of the same phenotype are commonly viewed as identical functional units of a tissue. The analysis of traditional detection method always bases on the overall average reaction of cells. However, the sequencing of DNA or RNA from single cells suggests the system-level function of a tissue is produced by heterogeneous cell. Single cell genome or transcriptome can be sequenced after amplification based on single cell sequencing. It can reveal the structure and expression of genes and the heterogeneity between cells. Single cell sequencing technology has come into focus for the achievements in cancer, developmental biology, microbiology and neuroscience. The difficulty involves in single cell isolation, whole genome amplification and transcriptome amplification. In this review, we summarize the common single cell isolation technology, whole genome amplification technology and transcriptome amplification technology, and analyze the advantages and disadvantages of current technologies. We also introduce the successful applications in different fields. This review provides references of single cell sequencing study and application. Key words：Single cell; Isolation; Amplification; Application

以后，还会记得曾经的一群人

Wed, 08 Apr 2015 20:16:59 +0800

senior middle school

Paired end sequencing VS Mate pair sequencing

Sun, 22 Mar 2015 20:02:32 +0800

Mate pair sequencing

Mate Pair Library Sequencing enables the generation of libraries with inserts from 2 to 5 kb in size. These long-insert Paired-End libraries are useful for a number of applications, including De NovoSequencing, genome finishing, and structural variant detection.

为OSX和Linux的TERMINAL增加时间分割线

Tue, 17 Mar 2015 05:56:44 +0800

Add a Handy Separator Between Commands in Your Terminal on Mac OS X and Linux 为终端的命令行之间添加时间线，增加可读性，效果如下。

Last login: Tue Mar 17 13:18:30 on ttys000
----------------------------------------------------------------------- 13:32:37
zzx@zzxdesk:~$ pwd
/Users/zzx
----------------------------------------------------------------------- 13:38:31
zzx@zzxdesk:~$ cd Desktop/
----------------------------------------------------------------------- 13:38:40
zzx@zzxdesk:~/Desktop$ pwd
/Users/zzx/Desktop
----------------------------------------------------------------------- 13:38:42
zzx@zzxdesk:~/Desktop$

Xephyr cannot open host display. Is DISPLAY set?

Thu, 18 Dec 2014 19:18:39 +0800

After Mac update to OS X Yosemite Version 10.10, I can’t run Xephyr. Error occurs Xephyr cannot open host display. Is DISPLAY set I have tried to fix it by “export DISPLAY=:1”, or something else. However, no approach to fix it. I tried to update X11 before giving up. Ah, it worked! I remember downgrading X11 also solved another problem several monthes ago. So update or degrade your X11 might be a way to solve your problem.

Linux read only file system

Thu, 30 Oct 2014 20:31:10 +0800

正用着的服务器在打开Netbean的时候报磁盘空间不足。因为这台机器一直是自己在用，于是登陆root用户，du -sh /home/* 想看看最近有没有人其他人在

An Explosion Of Bioinformatics Careers (reprint)

Fri, 10 Oct 2014 21:33:20 +0800

Big data is everywhere, and its influence and practical omnipresence across multiple industries will just continue to grow. For life scientists with expertise and an interest in bioinformatics, computer science, statistics, and related skill sets, the job outlook couldn’t be rosier. Big pharma, biotech, and software companies are clamoring to hire professionals with experience in bioinformatics and the identification, compilation, analysis, and visualization of huge amounts of biological and health care information. With the rapid development of new tools to make sense of life science research and outcomes, spurred by innovative research in bioinformatics itself, scientists who are entranced by data can pursue more career options than ever before. By Alaina G. Levine

Today’s bioinformaticists are in for a real treat. With a seemingly endless stream of biological data being generated across sectors, there is high demand for talented, experienced professionals at the crossroads of biology, statistics, and computer science. Scientists who can analyze large amounts of information and present it in a clear manner to decisionmakers are finding the sky is the limit in terms of jobs and career pathways, especially in the big pharma and biotech sectors.

“It’s a fun place to be and an exciting time to be in big data,” remarks Sriram Mohan, professor of computer and software engineering at Rose-Hulman Institute of Technology, who is spending his sabbatical developing bioinformatics software for Avalon Consulting, a data management firm.

And what an immense amount of data it is, due in part to a paradigm shift in the field, from data generation to data analysis, says W. Jim Zheng, associate professor in the School of Biomedical Informatics at The University of Texas Health Science Center at Houston. Now, with so much data being produced because of easier and more cost-effective tools, there is an even greater need for specialists who can make sense of the mountains of information in such a way that is meaningful for scientists and clinicians, and ultimately beneficial to customers and patients.

The increase in job opportunities is also being driven by a change in how bioinformatics is perceived in industry and academia. Previously, “scientists and companies used to look at bioinformatics as a tool,” says Wim Van Criekinge, a professor of bioinformatics at Ghent University in Belgium and chief scientific officer at MDxHealth, a company developing epigenetics-based cancer diagnostics. Bioinformaticists would be called upon to answer a question about data; their role was to run an algorithm on a database that provided that answer. “But the subject has evolved from a service, like histology, to its own research arena…. Bioinformaticists are now the motor of the innovation,” he adds. They not only answer the data inquiries, but also, more importantly, determine what questions need to be asked in the first place.

As a result, “there are many opportunities for scientists to pursue a bioinformatics/big data career in the biotech/big pharma industry at the moment,” notes Jared Kaleck, senior director of computational chemistry/biology and formulation development at executive search firm Klein Hersh International.

Hello!

Wed, 01 Oct 2014 06:46:40 +0800

Hi，welcome to my website. This site is under construction. The contents are maintained in zxzyl.com. Click link to jump to that page. Thank you! Since March 2015， I will use this WordPress site as my main blog. Hope more articles.

RNA测序到底可不可靠？(转)

Mon, 15 Sep 2014 19:20:19 +0800

RNA测序可以检测人类和其他生物的基因表达情况。最近这一方法在生物科学和医学研究中非常流行，而且正在逐渐走向临床应用。与之前的方法相比，RNA测序的优势是便于研究选择性剪切形成的基因异构体或转录本。

那么RNA测序到底可不可靠呢？日前，由美国FDA牵头的测序质量控制(SEQC)项目对RNA测序的准确性、可重现性和信息含量进行了综合性评估，并将初步调查结果发表在近日的Nature Biotechnology杂志上。

研究团队使用RNA参照样本，在全球多个实验室的Illumina HiSeq、Life Technologies SOLiD、Roche 454平台上进行了检测。(深圳华大基因、复旦大学、华东师范大学等单位参与了这一项目。)研究人员主要是评估RNA测序在接头区域和差异性表达谱中的表现，并将其与芯片和定量PCR(qPCR)进行比较。

研究人员发现，所有测序深度都会出现未注释的外显子-外显子连接区域，其中80%以上都得到了qPCR的验证。用RNA测序检测相对表达可以得到准确且可重复的结果，但RNA测序和芯片都不能提供精确的绝对测量，而且研究用到的平台都存在基因特异性的偏好，包括qPCR。

数据分析的算法也会对RNA测序产生很大影响，不同算法生成的转录本数据差异很大。研究显示，赫尔辛基大学和曼彻斯特大学开发的BitSeq能生成最可靠的结果，这一方法以概率建模为基础。

这项研究获得的完整SEQC数据集拥有超过10Tb读取，为评估RNA测序分析提供了宝贵的资源。

java block

Sun, 27 Jul 2014 20:22:08 +0800

目前，我遇到过两种JAVA block的情况.

一种是在建立http流之后，用conn.getInputStream().read()的时候block掉，这种情况通常是流再打开之后，网络出问题或者对方服务器问题等等。

通常写法是

while((is.read(buffer))!=-1){ do something }

网上通常的解决办法是用socket 来看是否超时，我的解决办法是循环不要以is.read(buffer)作为判断语句。而是用is.available()做判断，如果availab总是返回0值，那么退出重连，这其实相当于自己判断是否block掉了。

另外一个就是在执行Runtime.getRuntime().exec(script)的时候，由于script报错太多，没有即使读取出来，导致java被block掉。

把网上的解决方案给大家。转自http://saluya.iteye.com/blog/1260347

EndNote Mac--Error while reading serialized data in Word

Mon, 03 Mar 2014 09:25:12 +0800

Mac下的Endnote从X6换成X7后，word中的插入工具还是X6，插入文献时提示"Error while reading serialized data"

After upgrading the EndNote software, Word still shows older version of EndNote tools and displays an “Error while reading serialized data”. This problem may happen if the older version of EndNote was not uninstalled properly using Customizer and that the older version CWYW tools are loading in Word.

1 Make sure to close all Office programs and then open your hard drive.

2 Navigate to your Word startup folder. This path is usually [Applications: Microsoft Office 2011: Office: Startup: Word].

3 Take any files from this ‘Word’ folder and drag them out to the Desktop.

4 Open EndNote.

5 In EndNote, click on the EndNote menu and choose “Customizer…”

6 On the Customizer window, make sure “Cite While You Write” is checked.

7 Click the “Next” button twice and then press “Done” to close the Customizer window.

8 Open Word again to see if the latest EndNote tools are now loading.

总之有些人后来真的再也没见过（转载）

Mon, 25 Nov 2013 09:26:59 +0800

一

微信群里一姐们，说自己马上要毕业了。昨儿跟自己的好姐妹去夜店里蹦跶，然后半夜在马路上边哭边喊，于是她今天的嗓子哑的和杨坤似的。

想起我毕业的时候倒是风平浪静，啥疯狂的事儿没干。跟兄弟喝酒的时候一直很正常，感觉仿佛毕业只是一个再常见不过的程序，末了我一个人收拾行李的时候，听着yellow，突然间就跟傻逼一样地哭起来。我一直是个钝感严重的傻缺，大概直到那个时候，我才明白自己要告别的是什么。

告别。

尽管我们都在彼此的同学录里写着"友谊常在"之类的字眼–也不知道现在是不是还流行着同学录这样的东西，还是现在早已互留人人微博–但还是莫名其妙地失联。曾经的人人热闹的景象也不见了，取而代之的是一片沉默。

倒不是不想去联系，只是怕联系的时候只剩下一句：“好久不见。” “最近还不错。“便无话可说。谁都害怕曾经的友谊变得如此似是而非，所以干脆不联系。也有因为逐渐开始走向各自的生活轨迹，偶然想起的时候，只是害怕打扰。

六点起床只为了见她一面的那个姑娘；晚上熬夜在楼下一起抽烟的死党连同他欠我的那顿饭；失恋的时候陪我很久又突然失联的姑娘；散伙饭上抱着哭的哥们。

后来就真的再也没见过。

Mac下编辑PDF文件中文字---PDFpenPro

Sun, 03 Nov 2013 14:54:11 +0800

可以编辑PDF中的文字比如删除，替换，加入。注意是pdf中的文字，不是图片。 1选中想要编辑的区域 2选择correct text 就可以想写txt一样编

miRNA biogenesis and function

Fri, 06 Sep 2013 10:30:15 +0800

What is a Scaffold?

Tue, 02 Jul 2013 18:11:44 +0800

A scaffold is a portion of the genome sequence reconstructed from end-sequenced whole-genome shotgun clones. Scaffolds are composed of contigs and gaps. A contig is a contiguous length of genomic sequence in which the order of bases is known to a high confidence level. Gaps occur where reads from the two sequenced ends of at least one fragment overlap with other reads in two different contigs (as long as the arrangement is otherwise consistent with the contigs being adjacent). Since the lengths of the fragments are roughly known, the number of bases between contigs can be estimated.

The goal of whole-genome shotgun assembly is to represent each genomic sequence in one scaffold; however, this is not always possible. One chromosome may be represented by many scaffolds (e.g., Chlamydomonas reinhardtii) or just a single scaffold (e.g., Human chromosome 19), depending on how completely the genome can be reconstructed, or assembled, from the available reads. The relative locations of scaffolds in the genome are unknown.

N50 explained

Mon, 24 Jun 2013 14:00:01 +0800

In computational biology, the N50 statistic is a statistic of a set of contig lengths. The N50 is similar to a mean or median, but has greater weight given to the longer contigs. It is used widely in genome assembly, especially in reference to contig lengths within a draft assembly. Given a set of contigs, each with its own length, the N50 length is defined as the length for which the collection of all contigs of that length or longer contains at least half of the total of the lengths of the contigs, and for which the collection of all contigs of that length or shorter contains at least half of the total of the lengths of the contigs. (When more than one value of length meets both these criteria then the N50 is the average of the longest and shortest lengths that meet these criteria.) This can be thought of as the point of half of the mass of the distribution; the number of bases from all contigs shorter than the N50 will be close to equal to the number of bases from all contigs longer than the N50. The N90 statistic is smaller than or equal to the N50 statistic; it is the length for which the collection of all contigs of that length or longer contains at least 90% of the total of the lengths of the contigs, and for which the collection of all contigs of that length or shorter contains at least 10% of the total of the lengths of the contigs.

Getting LibSVM to work with Weka on Mac（reprint）

Fri, 21 Jun 2013 07:47:08 +0800

Somehow, the only way to use LibSVM with Weka is by using the bash command-line. I have tried the second method successfully. As for you , etheir is good. Step 1: Get Weka.Assume the bleeding edge version 3.7.0. Unzip and put in /Applications folder. Step 2: Get LibSVM. a. Iowa State site (http://www.cs.iastate.edu/~yasser/wlsvm/wlsvm.zip): If you use Safari to download, it will be unzipped in the Downloads directory. The files you need are ~/Downloads/WLSVM/lib/wlsvm.

How to extract paired-end reads from SRA files（reprint）

Thu, 20 Jun 2013 21:29:02 +0800

SRA(NCBI) stores all the sequencing run as single “sra” or “lite.sra” file. You may want separate files if you want to use the data from paired-end sequencing. When I run SRA toolkit’s “fastq-dump” utility on paired-end sequencing SRA files, sometimes I get only one files where all the mate-pairs are stored in one file rather than two or three files. The solution for the problem is to always run fastq-dump

How PCR duplicates arise in next-generation sequencing(reprinted)

Tue, 19 Mar 2013 15:49:04 +0800

PCR duplicates are an everyday annoyance in sequencing. You spend hundreds or thousands of dollars to get sequencing done, and after you get the reads back, you find that several percent, sometimes even 30% or 70% of your reads are identical copies of each other. These are called PCR duplicates and most sequencing pipelines recommend removing them or at least marking them (Picard’s MarkDuplicates or samtools rmdup are two available tools).

miRNA和siRNA的基本介绍及区别(转)

Sat, 12 Jan 2013 18:29:48 +0800

1998年，Andrew Fire和Craig Mello提出了一项新技术：通过dsRNA诱导特异基因的沉默，即所谓RNAi。2000年，Amy Pasquinelli等将lin-4和let-7作小时序RNAs(stRNAs，mall temporal RNAs)。

RNA干涉（RNAi）在实验室中是一种强大的实验工具，利用具有同源性的双链RNA（dsRNA）诱导序列特异的目标基因的沉寂，迅速阻断基因活性。SiRNA在RNA沉寂通道中起中心作用，是对特定信使RNA（mRNA）进行降解的指导要素。siRNA是RNAi途径中的中间产物，是RNAi发挥效应所必需的因子。SiRNA的形成主要由Dicer和Rde-1调控完成。由于RNA 病毒入侵、转座子转录、基因组中反向重复序列转录等原因,细胞中出现了dsRNA，Rde-1(RNAi缺陷基因-1)编码的蛋白质识别外源dsRNA，当dsRNA达到一定量的时候，Rde-1引导dsRNA与Rde-1编码的Dicer（Dicer是一种RNaseIII 活性核酸内切酶，具有四个结构域：Argonaute家族的PAZ结构域，III型RNA酶活性区域，dsRNA结合区域以及DEAH/DEXHRNA解旋酶活性区）结合，形成酶-dsRNA复合体。在Dicer酶的作用下，细胞中的单链靶mRNA（与dsRNA具有同源序列）与dsRNA的正义链互换，原来dsRNA中的正义链被mRNA代替而从酶-dsRNA复合物中释放出来，然后，在ATP的参与下，细胞中存在的一种RNA诱导的沉默复合体RNA-induced silencing complex （RISC，由核酸内切酶、核酸外切酶、解旋酶等构成，作用是对靶mRNA进行识别和切割）利用结合在其上的核酸内切酶的活性来切割dsRNA上处于原来正义链位置的靶mRNA分子中与dsRNA反义链互补的区域，形成21-23nt的dsRNA小片段，这些小片段即为siRNA。RNAi干涉的关键步骤是组装RISC和合成介导特异性反应的siRNA蛋白。SiRNA并入RISC中，然后与靶标基因编码区或UTR区完全配对，降解靶标基因，因此说siRNA只降解与其序列互补配对的mRNA。其调控的机制是通过互补配对而沉默相应靶位基因的表达，所以是一种典型的负调控机制。siRNA识别靶序列是有高度特异性的，因为降解首先在相对于siRNA来说的中央位置发生，所以这些中央的碱基位点就显得极为重要，一旦发生错配就会严重抑制RNAi的效应，相对而言，3′末端的核苷酸序列并不要求与靶mRNA完全匹配。

HashMap，根据key，value排序和HashMap在声明时初始化

Mon, 31 Dec 2012 20:32:31 +0800

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 /声明的时候初始化 HashMap hashMap = new HashMap(){ { put("a", 1); put("b", 3); put("c", 2); } }; //sorted by value ArrayList<Map.Entry> l = new ArrayList<Map.Entry>(hashMap.entrySet()); Collections.sort(l, new Comparator<Map.Entry>() { public