标签归档:Illumina

BCL文件与BCL2FAFSTQ程序简介

BCL文件

测序产生的原始文件是BCL(binary base call)文件,测序仪在测序的时候,每个cycle都会测量编码不同颜色的通道强度,并确定最有可能的碱基类型。Real Time Analysis (RTA) 软件会将碱基类型和可信度(一个质量分数)。与FASTQ文件不同的是,BCL文件是实时产生,每个cycle的每个tile都会有一个对应文件,文件放在

<run directory>/Data/Intensities/BaseCalls/L<lane>/C<cycle>.1

文件的命名

s_<lane>_<tile>.bcl

bcl2fastq

该文件需要通过Illunima的软件或者第三方分析工具将BCL文件转成FASTQ文件。一般而言,数据下机之后,Illumina测序仪会自动将BCL转成FASTQ文件。有时候,根据实验需要,需要自己手工将BCL文件转成FASTQ文件,比如自己设计的index中含有简并碱基,或者需要调整一下转换的参数等。

Illumina提供bcl2fastq的程序包,共离线处理BCL文件,生成FASTQ文件。

bcl2fastq  -i /paht/to/run/Data/Intensities/BaseCalls/ \
       -o /output/dir --sample-sheet /paht/to/run/SampleSheet.csv \
       -R /paht/to/run/

bcl2fastq文件有很多参数可调,比如在FASTQ中记录read的index(fastq文件中会记录配对的index具体序列,以及会生成额外对应的index文件),可以添加–create-fastq-for-index-reads选项。

如果允许index有mismatch的话,可以通过–barcode-mismatches设置。

–fastq-compression-level可以设置生成的FASTQ.GZ文件的压缩比例

安装如下

unzip bcl2fastq2-v2.17.1.14.tar.zip
tar -xvzf bcl2fastq2-v2.17.1.14.tar.gz
./bcl2fastq/src/configure --prefix=/path/to/install/
make
make install

安装过程中,如果遇到一下问题,请更新gcc版本
问题1
cc1plus: error: unrecognized command line option “-std=c++11”
问题2
undefined reference to `boost::re_detail::perl_matcher
collect2: error: ld returned 1 exit status

软件选项说明如下:
继续阅读

Illumina下机FASTQ文件命名规则

FASTQ文件在Illumina下机数据文件夹Data\Intensities\BaseCalls\中,类似SampleName_S1_L001_R1_001.fastq.gz(比如NTC_S11_L001_R1_001.fastq.gz)

其中被下划线_分为了五个部分。

  • 第一部分:SampleName,样本名,与上机时在Sample Sheet中填写的一致
  • 第二部分:S1,S***,S后跟的数字与样本在Sample Sheet中的顺序一致,从1开始。不能分配到确定样本的read会归到S0(Undetermined_S0)
  • 第三部分:L00*,泳道lane的编号
  • 第四部分:R*,R1表示read1,R2表示read2。R1和R2为paired end reads。同一个样本的配对的FASTQ,只有这个地方不同
  • 第五部分:001,通常为001

Naming
FASTQ files are named with the sample name and the sample number, which is a numeric assignment based on the order that the sample is listed in the sample sheet.
Example:
Data\Intensities\BaseCalls\SampleName_S1_L001_R1_001.fastq.gz
• SampleName—The sample name provided in the sample sheet. If a sample name is not provided, the file name includes the sample ID, which is a required field in the sample sheet and must be unique.
• S1—The sample number based on the order that samples are listed in the sample sheet starting with 1. In this example, S1 indicates that this sample is the first sample listed in the sample sheet.

NOTE
Reads that cannot be assigned to any sample are written to a FASTQ file for sample number 0, and excluded from downstream analysis.
• L001—The lane number.
• R1—The read. In this example, R1 means Read 1. For a paired-end run, there is at least one file with R2 in the file name for Read 2. When generated, index reads are I1 or I2.
• 001—The last segment is always 001.

 

参考:

https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/NamingConvention_FASTQ-files-swBS.htm

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

测序中加入Phix的作用

测序建库的时候,会加入一定比例的Phix,那么Phix文库有什么作用呢,我转了两篇文章,方便大家理解。Phix文库最主要的目的1)是调节碱基平衡,改善测序仪的空间校正,便于后期提高base calling的准确性,2)由于Phix序列已知基因组较小,在测序的过程中Illumina的测序仪就开始将测的read与phix基因组进行比较,预估测序指标。我也遇到过,Illumina工程师在维护测序仪时,用Phix文库测试。转载内容详见下文

继续阅读

Illumina测序平台介绍

A short introdution of Illunima sequencing machine, especially for Hiseq.

Illumina测序平台

 

HiSeq 2000 HiSeq 2500 HiSeq 3000 HiSeq 4000
Output 500-600 GB 900-1000 GB 630-750 GB 1300-1500 GB
Reads passing Filter 1.7-2 billion 3-3.3 billion 2.1-2.5 billion 4.3-5 billion
Read Length 2 x 100bp 2 x 125bp 2 x 150bp 2 x 150bp
Quality Scores(Q30) >85% >80% >75% >75%
Run Time 11 days 6 days 3.5 days 3.5 days
Human Genomes per Run Up to 5 Up to 8 Up to 6 Up to 12
Exomes per Run Up to 72 Up to 120 Up to 90 Up to 180
Transcriptomes per Run Up to 40 Up to 67 Up to 50 Up to 100

hiseq-x-ten Illumina测序平台

Hiseq 2500

Hiseq 2500是Hiseq 2000的升级版。其主要的改进点是:Hiseq 2500可以在快速、高通量两种模式之间切换。高通量模式就是原来的Hiseq2000的每张Flowcell有8个Lane的模式。 继续阅读