标签归档:Tutorial

测序数据的预处理

测序得到的原始测序序列,里面含有低质量的reads。低质量的reads可能因为flowcell上的cluters不是有单一DNA扩增而来,或者几个cluters混为一起等。还有测序仪在前几个和几个cycle测序质量不好,需要关注一条read的前后几个碱基的质量。如果质量非常不好,测出来的碱基可能为N(无法确定碱基类型)。

此外,原始reads中还包含测序接头等序列。如果一个文库的平常插入长度为450bp的话,不一定每个插入长度都为450bp,如果个别分子插入长度为100bp,双端配对150bp测序的,会将该片断测穿,配对的reads会多包含50bp的index或者SP等序列。为了保证信息分析质量,需要对下机的raw reads 进行精细过滤,得到clean reads,后续分析都基于clean reads进行。

为了提高下一步的比对质量,此时数据预处理的过程主要包括:
• 去掉接头,去掉开头和结尾几个碱基中质量不好的碱基
• 滑窗扫描,检查是否有好几个连续碱基质量不好的情况
• 丢弃过短的read
• 去接头
• 去掉前端碱基质量低于一定值的碱基
• 去掉后端碱基质量低于一定值的碱基
• 以4bp为窗口滑窗扫描read,如果4个碱基平均质量低于15,则截断
• 丢弃序列长度小于36bp的reads
继续阅读

文件介绍–FASTQ文件格式

在培训部门同事的时候,发现刚开始学生信的人,只是在学如何运行命令,但对自己手头的文件格式和内容却不了解,这对分析的流程的深入理解和研究是非常不好的,所以刚学习的人,应该在等待分析结果的时候,多去了解下文件的内容,程序的大体算法等,这对以后的工作优化是非常有好处的。本文简单介绍一下Fastq的文件格式,希望新手多查文档,多了解自己接触的东西。

文库构建和测序

DNA分子会通过超声波或者酶被打断成几百碱基的小片段,然后在小片段DNA分子的两端添加接头,便于测序和样本区分。当然现在也有转座酶技术,通过转座酶同时实现DNA片断化和加接头和引物的过程。将文库上机,文库中的DNA分子首先与flowcell上lane中的接头结合,通过桥式PCR进行扩增(cluster簇增长),待达到一定量之后,进行便合成边测序。

测序数据的产生

每进行一个cycle,测序仪会合成过程中产生的荧光进行拍照分析,将产生的数据记录在bcl(base calling)文件,测序仪后续会将bcl文件转化成fastq文件,并同时进行demultiplexing。Demultiplexing会将属于同一Index的reads放在同一个fastq文件中,就个过程是Illumina测序仪自动化进行的,如果涉及更复杂参数的demultiplexing,可以下载illumima的bcl2fastq程序,指定相关文件夹即可自己进行demultiplexing。因为在测序上机之前,会在测序仪中设置样本对应的index,这样通过demultiplexing,测序仪对每个样本产生一对fastq文件。Illumina测序仪会自动将拍照形成的bcl文件转换成FASTQ文件。此文件为数据分析的开始。

FASTQ文件格式简介

Paired End(PE)测序,会生成的一对FASTQ文件,分别为R1和R2,正是因为双端测序的产生,使得序列拼接和比对更加准确,因为如果单端的话,只能依靠单端read的长短信息,如果双端的话,能依靠整个插入DNA片断长度的信息,通过判断配对序列的相近距离,确认reads的位置,减少了read比对到多个地方的情况发生。
配对的reads分别在两个FASTQ文件中,其中一个FASTQ文件的内容如下,每四行表示一条read:

继续阅读