Per tile sequence quality
Per tile sequence quality ---Position specific failures of flowcells
介绍
当Per tile sequence quality显示fail或者warning,表明测序的lane或某个run中出现出现了部分故障,从而影响一些特定的区域和循环,进而使测序数据的质量下降。另外,如果read的3'端的质量是好的,就意味着存在瞬时质量损失(Transient quality loss)的区域难以被剪切处理。
Patterned Flow Cell Technology
设备 | Read sequences per lane | Read length | 设备运行时长 |
---|---|---|---|
HiSeq 2500 | 150 -180 million reads x 8 lanes | 100 bp single read or paired end | 5 days for single read 11 days for paired end |
MiSeq | 12-15 million reads x 1 lane | 150 bp single read or paired end | 24-36 hours for both |
基本 Illumina NGS workflow
-
文库制备(library preparation)
-
簇的生成(cluster generation)
-
测序 (sequencing)
-
比对和数据分析(alignment and data analysis)。
Illumina 测序方法的基本流程如下:
- A single base containing a fluorophore and 3' blocking moiety is incorporated by a polymerase.
- The flow cell is imaged using fluorescent microscopy.
- The fluorescent and blocking moieties are cleaved, allowing the next base to be incorporated.
flow cell 的结构
具有patterned flow cell 的测序技术的两个突破性的创新点:
-
a distinct, ordered nanowell design, Each nanowell contains DNA probes used to capture prepared DNA strands for amplification during cluster generation
-
a new exclusion amplification chemistry
症状和诊断
在illumina 的测序设备中,根据flow cell的表面,人为的将其切分为swaths,这些swaths再进一步被切分为tiles。 通过查看per tile,识别因flow cell 或 run的故障造成的测序的错误。
症状一:random loss of quality at different positions and cycles
原因:overloading of the flow cell
症状二:a broad loss of quality over 4 areas of the flowcell
原因:当run的总体质量有点略低,而flowcell并没有过载时,造成这种错误的原因一般是由于测序的序列有偏差(biased)。这些高亮的区域代表flow cell 的边边,因为在flow cell 的边边,拍照系统识别read的信号的能力下降。一般而言,这些数据还不是太糟糕,常常还是能用的。
症状三:a quality loss in specific areas which is not present from the start but remains for the remainder of the run
原因:拍照系统受到阻挡,比如说,有脏东西掉在flowcell的表面,或者一些东西被冲进了flowcell,并且卡在flowcell内。通常这种阻塞现象会成对出现,因为任何阻碍物都会影响swaths的顶端和底端,来自这些区域的序列通常在质控中能被修剪移除掉。
症状四:a temporary loss of quality over a restricted area
原因:有些东西被冲进了flowcell中,阻塞了一些循环(cycles),最后又被冲洗出去了。处理这个问题的难点在于,由于这段测序质量差的序列并不在read的末端,则意味着不能通过直接剪切处理这个read。
一般造成这个问题的主要原因是flowcell中的气泡。同时,气泡还会引起其他的副作用,如气泡不仅阻止拍照系统正确拍照,还使测序试剂无法流入flowcell的纳米孔中,进而无法形成cluster,从而导致气泡下的cluster跳过了 sequencing chemistry cycles,使得在气泡被引入之前的最后一个碱基被重复读取,最终导致序列被人为的延伸,即引入了插入片段。如果这些reads是用于检测SNP的,那么这些假的插入片段将会混淆对下游分析结果解释。
缓解上述症状的方法
一般在下游分析时,flowcell中质量低的 tiles 是可被移除的。或者可以根据QC报告中tile position,过滤或移除fastqc文件中低质量的tile。
预防措施
除标准除气和清洁工作程序之外,执行位置和一般质量检查(positional and general quality checks)都会使用户发现问题所在。
经验教训
即使是很小的数据子集,也有明显的质量损失,因为它们有可能在下游分析中引入重要的生物噪声。
软件
FastQC per-tile quality plot 和 the BamQC per-base indel plot 会找出问题类型
参考链接:
Position specific failures of flowcells
Patterned Flow Cell Technology
https://www.broadinstitute.org/files/shared/illuminavids/sequencingSlides.pdf