Per tile sequence quality

Per tile sequence quality ---Position specific failures of flowcells

介绍

当Per tile sequence quality显示fail或者warning,表明测序的lane或某个run中出现出现了部分故障,从而影响一些特定的区域和循环,进而使测序数据的质量下降。另外,如果read的3'端的质量是好的,就意味着存在瞬时质量损失(Transient quality loss)的区域难以被剪切处理。

Patterned Flow Cell Technology

设备 Read sequences  per lane Read length 设备运行时长
HiSeq 2500 150 -180 million reads x 8 lanes 100 bp single read or paired end 5 days for single read 11 days for paired end
MiSeq 12-15 million reads x 1 lane 150 bp single read or paired end 24-36 hours for both

基本 Illumina NGS workflow

  1. 文库制备(library preparation)

  2. 簇的生成(cluster generation)

  3. 测序 (sequencing)

  4. 比对和数据分析(alignment and data analysis)。

Illumina 测序方法的基本流程如下:

  • A single base containing a fluorophore and 3' blocking moiety is incorporated by a polymerase.
  • The flow cell is imaged using fluorescent microscopy.
  • The fluorescent and blocking moieties are cleaved, allowing the next base to be incorporated.

flow cell 的结构

具有patterned flow cell 的测序技术的两个突破性的创新点:

  1. a distinct, ordered nanowell design, Each nanowell contains DNA probes used to capture prepared DNA strands for amplification during cluster generation

  2. a new exclusion amplification chemistry


症状和诊断

在illumina 的测序设备中,根据flow cell的表面,人为的将其切分为swaths,这些swaths再进一步被切分为tiles。 通过查看per tile,识别因flow cell 或 run的故障造成的测序的错误。

症状一:random loss of quality at different positions and cycles

原因:overloading of the flow cell

https://sequencing.qcfail.com/wp-content/uploads/sites/2/2016/01/random_loss.png

症状二:a broad loss of quality over 4 areas of the flowcell

原因:当run的总体质量有点略低,而flowcell并没有过载时,造成这种错误的原因一般是由于测序的序列有偏差(biased)。这些高亮的区域代表flow cell 的边边,因为在flow cell 的边边,拍照系统识别read的信号的能力下降。一般而言,这些数据还不是太糟糕,常常还是能用的。

症状三:a quality loss in specific areas which is not present from the start but remains for the remainder of the run

原因:拍照系统受到阻挡,比如说,有脏东西掉在flowcell的表面,或者一些东西被冲进了flowcell,并且卡在flowcell内。通常这种阻塞现象会成对出现,因为任何阻碍物都会影响swaths的顶端和底端,来自这些区域的序列通常在质控中能被修剪移除掉。

症状四:a temporary loss of quality over a restricted area

原因:有些东西被冲进了flowcell中,阻塞了一些循环(cycles),最后又被冲洗出去了。处理这个问题的难点在于,由于这段测序质量差的序列并不在read的末端,则意味着不能通过直接剪切处理这个read。

一般造成这个问题的主要原因是flowcell中的气泡。同时,气泡还会引起其他的副作用,如气泡不仅阻止拍照系统正确拍照,还使测序试剂无法流入flowcell的纳米孔中,进而无法形成cluster,从而导致气泡下的cluster跳过了 sequencing chemistry cycles,使得在气泡被引入之前的最后一个碱基被重复读取,最终导致序列被人为的延伸,即引入了插入片段。如果这些reads是用于检测SNP的,那么这些假的插入片段将会混淆对下游分析结果解释。

缓解上述症状的方法

一般在下游分析时,flowcell中质量低的 tiles 是可被移除的。或者可以根据QC报告中tile position,过滤或移除fastqc文件中低质量的tile。

预防措施

除标准除气和清洁工作程序之外,执行位置和一般质量检查(positional and general quality checks)都会使用户发现问题所在。

经验教训

即使是很小的数据子集,也有明显的质量损失,因为它们有可能在下游分析中引入重要的生物噪声。

软件

FastQC per-tile quality plot 和 the BamQC per-base indel plot 会找出问题类型

参考链接:

Illumina Sequencing Platform

Position specific failures of flowcells

Patterned Flow Cell Technology

https://www.broadinstitute.org/files/shared/illuminavids/sequencingSlides.pdf

posted @ 2017-12-15 13:19  AdaWongCorner  阅读(3283)  评论(0编辑  收藏  举报