fastq压缩之后的gzip文件大小与样本数据量

在测序的时候,我们先拿到的是样本fastq压缩后的gzip文件,这个时候可能最关心的是数据量够不够,那么fastq.gz文件大小和测序数据量有什么关系呢。
我用Miseq测序数据(gz文件200M左右),Hiseq panel(gz文件50M左右)和WES测序数据(gz文件4G左右)进行了简单的分析。有意思的地方是,虽然R1和R2的数据量是一样的,解压出来的文件大小是一样的,但R2的gzip文件总比R1大。不管是Miseq还是Hiseq的panel测序,压缩后的R2均大于R1文件,且文件越小,差异越大。

因为R1和R2数据量相同的原因,我只看R1的真实文件和gz文件大小与数据量之间的关系。
数据量=FASTQ文件行数/4*151/1000/1000 单位为M
真实文件大小估计=FASTQ文件行数/4*357/1024/1024 单位为M,预测值,差别不大,因为FASTQ文件中每四行357个字符(和平台和设置有关系),每个字符1byte。
GZ文件大小通过ll -h查看
因为FASTQ文件是规范的,每四行字符基本一致,所以FASTQ真实文件大小和数据量成正比。比如我前面提到的每四行有357个字符,其中序列只占151个字符,也就是说FASTQ文件大小大概是测序量的357/151≈2.3倍多。但因为FASTQ文件为文本文件,占用空间较大,所以一般将FASTQ文件压缩成gzip格式文件。

用gzip文件大小除以估计的真实文件大小,得到压缩比,发现压缩比和测序平台有关系,Miseq的压缩比在0.35左右,Hiseq平台中的panel测序在0.24左右,WES在0.2左右。可以发现WES的数据的压缩效率最高,猜测不同平台在压缩过程中设置的压缩比例不同。Hiseq测序平台的gzip文件压缩性能大于Miseq平台。

以Miseq的gzip文件大小和数据量作图,可以很直观的发现gzip文件大小和数据量之间的线性关系。如图,斜率是1.245,截距可以忽略不计,因为纵坐标很大。也就是说R1文件的数据量约等于gzip文件的1.245倍。

从另外一个角度计算,R1文件的数据量=gzip文件大小/压缩效率/2.3,则因为Miseq的压缩效率在0.35,Hiseq在0.23左右,所以Miseq R1文件的数据量大概是gzip文件的1.242倍(1/0.35/2.3),和上图拟合的结果很相近,Hiseq约在1.89(1/0.23/2.3)倍。真实的数据量其实是R1文件数据量的2倍(R2文件中的数据量和R1文件相同)。

结论:不同平台和不同测序方法之间的fastq文件压缩比例并不一致,但同一种方法和平台内的压缩比例是相近的,因而可以根据gzip文件的大小推测出测序的数据量。
我手头的数据中,Miseq的测序量约是R1 gzip文件大小的2.49倍,Hiseq的测序量约是R1 gzip文件大小的3.78倍。不同平台和方法之间,这个值是不固定的,可以根据手头的数据计算一下这个比例,就能迅速的估算出样本的数据量。

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.