测序数据的预处理

测序得到的原始测序序列,里面含有低质量的reads。低质量的reads可能因为flowcell上的cluters不是有单一DNA扩增而来,或者几个cluters混为一起等。还有测序仪在前几个和几个cycle测序质量不好,需要关注一条read的前后几个碱基的质量。如果质量非常不好,测出来的碱基可能为N(无法确定碱基类型)。

此外,原始reads中还包含测序接头等序列。如果一个文库的平常插入长度为450bp的话,不一定每个插入长度都为450bp,如果个别分子插入长度为100bp,双端配对150bp测序的,会将该片断测穿,配对的reads会多包含50bp的index或者SP等序列。为了保证信息分析质量,需要对下机的raw reads 进行精细过滤,得到clean reads,后续分析都基于clean reads进行。

为了提高下一步的比对质量,此时数据预处理的过程主要包括:
• 去掉接头,去掉开头和结尾几个碱基中质量不好的碱基
• 滑窗扫描,检查是否有好几个连续碱基质量不好的情况
• 丢弃过短的read
• 去接头
• 去掉前端碱基质量低于一定值的碱基
• 去掉后端碱基质量低于一定值的碱基
• 以4bp为窗口滑窗扫描read,如果4个碱基平均质量低于15,则截断
• 丢弃序列长度小于36bp的reads

实现上述功能的工具,我较常用的是Trimmomatic,默认参数下可以实现下述功能,不过可以根据下机数据和分析需求对参数进行调整。

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

Faxtx tookit等其他工具也能实现部分质控功能。

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.