高通量质控统计软件包Rqc–Quality Control Tool for High-Throughput Sequencing Data

在得到下机数据之后,首先会对下机数据进行质控,并对碱基质量碱基分布等进行统计和绘图,得到质控报告。大家常用的质控软件有Faxtx tookit,fastqc,Trimmomatic 等,但出图要么是自己根据统计结果自己画图要么是用fastqc的图。个人觉得fastqc的图有点土,于是找到了Rqc包,顾名思义R quality control。发现国内没有人介绍该包,在此向广大人民群众推荐该包。

Rqc包的介绍网址在http://www.bioconductor.org/packages/release/bioc/html/Rqc.html

有两种安装方式,
一种是通过bioconductor
source("http://bioconductor.org/biocLite.R")
# 如果下载包的网速非常慢,请更换镜像chooseBioCmirror()
biocLite("Rqc")

另一种方式是通过github
install.packages("devtools")
library(devtools)
install_github("labbcb/Rqc")

Rqc包自带测试数据用于测试Rqc:
library(Rqc)
folder rqc(path = folder, pattern = “.fastq.gz”)

结果输出如下:

read质量分布Per Read Mean Quality Distribution of Files

每个位点的碱基质量分布 Cycle-specific Quality Distribution

reads的dupicate情况 Read Frequency

每个位点的GC含量 Cycle-specific GC Content

每个位点的碱基质量分布 Cycle-specific Quality Distribution-Boxplot

大于某一定其质量的reads的比例 Average Quality

每个位点的碱基含量 Cycle-specific Base Call Proportion

每个位点的碱基含量,另一种表示方式Cycle-specific Base Call Proportion

对于QC统计报告而言,这些图片已经足够了。还有其他的方法和包用于QC作图,如果用于reads处理的QC工具,那就更多了,在此只小结一下QC统计作图

  1. fastq http://www.bioinformatics.babraham.ac.uk/projects/fastqc
  2. Rqc http://www.bioconductor.org/packages/release/bioc/html/Rqc.html
  3. rsqc http://rseqc.sourceforge.net/   RNA seq QC
  4. fastx_quality_stats http://hannonlab.cshl.edu/fastx_toolkit/
  5. readfq https://github.com/billzt/readfq (根据readfq的输出结果,自己进行作图,什么形式的图自己定)
  6. ht-seq http://manuals.bioinformatics.ucr.edu/home/ht-seq附图是ht-seq出的图

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.