2. MGI Pacbio ONT 测序原理
本人的生物只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅.
1. 总览
2. MGI 测序原理
MGI属于华大智造的专利技术,同样是用于测序.在解决下面三个问题上使用了不同的方法.
(1) 如何区分不同碱基:这里可以看作一致,是相似的技术.
(2) 荧光微弱:滚环扩增,形成DNA纳米球.要注意建库的时候就不一样,MGI建立的是环状的文库.
(3) 合成太快:相似的终止技术.
2.1 DNBSEQ技术原理——文库制备
我们可以看到直到加接头那步出现了不同,MGI测序使用的是泡状接头(鼓起是为了加标签),但后续PCR是一致的.接下来不一样的是从热变性开始.变性双链会变成单链的DNA,再对单链进行环化.如果只靠左右两个接头是无法环化的,还会有一个接口,所以这里还接了一个Split Oligo片段,最后形成了环状DNA.
下面讲述一下环状DNA是怎么扩增的.里面是环状DNA,我们要复制这个DNA,首先使用橙色的DNA片段作为引物,然后沿着环状开始复制,但是复制到尾巴,是不会拼接的,也就是说有缺口.新复制的DNA片段尾部会将橙色部分翘起来,然后继续复制.
橙色部分翘起为了区分画作绿色,继续合成蓝色接头,再沿着原来的初始环状合成紫色的DNA片段,我们可以将这段扩增展开,最后是一条链.
-------------这段建议看原视频,真的很难形容--------
接下来直接对这个DNA分子进行测序.但是从第一个蓝色接头开始合成并没有做到放大荧光.所以同时有多个合成.
所有拷贝都连上测序引物(绿色).同时开始合成,荧光就会变强,同样末端终止法一个个测序.但是测序同样是只测适当的碱基数(老师说的是150个).
我们也可以继续合成,但是到末端,后一个DNA分子会被前一个DNA分子顶起来.
2.2 与Illumina 测序比较
滚环扩增的一个劣势是环化不一定成功(大DNA片段的环化成功率就会比较低),且效率比较低,所以开始扩增前使用的DNA浓度需要高一点,并且滚环扩增的步骤比桥式PCR步骤多,所以需要时间多一点.
当然滚环扩增也存在优点.我们在原来的PCR扩增可以发现如果早期模板复制时,如果出现了差错(比如碱基突变),会出现连锁反应,导致后面的DNA分子合成也出现差错.此时也很难分辨到底突变前的DNA是正确的,还是突变后的DNA是正确的.
但是滚环扩增没有这种劣势,因为滚环扩增是以原始的DNA分子为模板不断合成,是线性扩增.这种扩增还带来一个好处就是GC含量带来的偏向性也就低了,错误也不会被累积.
这里还有一个标签跳跃的问题.这个是Illumina公司所采用的基于ExAmp(排他性扩增)技术的测序平台,会出现其他游离的接头附着到插入DNA片段的情况,导致后面扩增出现连锁错误(请注意原理,index也参照模板链合成了).BGI也是因为线性扩增才解决这个问题(这里没讲原理,感觉不讲下原理有点难理解).
2.3 DNBSEQ技术原理——放置在flowcell
扩增的DNA分子相互缠绕形成了一个毛线球状的分子,分子带负电,flowcell用于存放该分子的带正电,正负相吸可以吸引过去.但是不是所有分子都可以精准落到位置上.请注意flowcell不是多个lane,而是阵列式圆点.
2.4 DNBSEQ技术原理——测序
下图是Rd1的测序,并没有讲Rd2的测序,老师说是很复杂,就没讲.
2.5 DNBSEQ技术原理——终止
之前说DNBSEQ技术的原理基本和Illumina一致,但其实也有不一样的地方.Illumina终止的方法是将荧光基团接在碱基上,当该分子接上DNA链后,需要额外将荧光基团洗掉.但是DNBSEQ技术为了避免版权纷争,只能采取新的方式,就是将荧光基团插在阻塞合成的基团上.这样我们除去阻塞合成的基团时,也能瞬时洗掉荧光基团,并且也能多加荧光基团.这就是CoolMps技术.
还需要强调一点,我们洗掉荧光基团时,还是会在DNA的碱基上留下痕迹,多多少少会影响DNA的合成.
下图是CoolMps的效果.
3. PacBio测序原理
PacBio的基因芯片称为SMART Cell.同样也为边合成边测序.
3.1 过程
同样需要在检测的DNA序列左右加上接头序列.然后放在SMART Cell里,Cell里设置了DNA聚合酶,会抓住DNA分子(变性后的单链DNA分子).同样用dNTP,使用激光照射,使得荧光发亮.这里就开始边合成边测序.但是这样会不会有荧光弱的问题呢?不会,因为Cell很小,而激光只会照射底部的一小段区域,上面的荧光不会造成太多的噪音干扰.
这也可以称之为单分子测序,它只需要一个dna分子,不需要荧光信号的放大.
但是这样会有一个问题.我们合成DNA刚刚好从5端开始合成的概率不大,往往是抓住中间部分,但是这样就会漏测了一部分序列.解决方法是将接头设计成哑铃的形状,当DNA双链之间的键因为高温变性而断开后,就会形成一个环状DNA分子,我们合成就会沿着环状合成.
从上面的简述中,我们可以理解到PacBio的测序长度由Cell底下的酶活性决.如果聚合酶可以合成40K,那么就能测序40K的长度,这也称为酶读长.
但是这又涉及到一个问题.假设DNA分子只有10K长,酶活性40K会围绕DNA分子绕几圈.这样看起来没有意义,但实际是有意义的.因为PacBio的方法测序荧光会比较弱,出错的概率会比较大.多测几次可以纠正测序错误.
上图的多次测序序列相互矫正(因为多次测序一直在同一个地方出错的概率不大),最后得到的序列称为一致性序列.准确率达到99.9%,而原始测序准确率不到80%.
3.2 PacBio测序模式
原理在上节已经阐述.但实际测序模式有两种模式.
上部分是用于测序长链DNA.上部分是为了测出更长的DNA片段,而非关注准确率.下半部分是为了更准确地测出较短DNA序列.下部分的reads也称为HiFi reads.
3.3 PacBio优势
请注意高准确性是指第二种模式.
3.4 PacBio的文库
Pacbio 的文库被称为 SMRTbell 文库,bell 即“铃”的意思,构建完成的 bell 文库就像一个哑铃或者说更像骨头。其主要有两部分构成:发卡状单链接头(Hairpin Adapter)和双链 DNA模板(Double stranded DNA Template)
DNA 分子被接上发卡状的 adaptor,因此,构建的文库整个是圆环的分子,利于其周而复始的复制.并且,对于一个片段的重复测序,可以提高准确度,因为不会像 illumina 测序那样,因为同时测多个碱基而出现 phasing 和 prephasing 的情况,制造噪音限制读长.
4. Oxford Nanopore 测序
4.1 过程
Oxford Nanopore测序是基于电流信号.MinlOn就是Oxford Nanopore的测序仪.Oxford Nanopore 也有flowcell,放大有一个个的纳米孔.Membrane是生物膜,膜上有马达蛋白(Motor protein).
核心就是利用一个纳米孔,孔内共价结合有分子接头,将纳米孔蛋白固定在电阻膜上后,再利用动力蛋白牵引核酸穿过纳米孔.当核酸通过纳米孔时使电荷发生变化,从而引起电阻膜上电流的变化.由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,因此不同碱基通过蛋白纳米孔时对电流产生的干扰不同,通过实时监测并解码这些电流信号便可确定碱基序列,从而实现测序.
4.2 与PacBio的对比
ONT会被限制是因为我们很难完整提取一个染色体的DNA序列.这个问题ONT也提出了解决方法,就是使用特殊的试剂盒提取(下面的Phenol/chloroform).
下图是长度与准确率的对比.
PacBio可以做到一致性序列,那么ONT能否做到呢?答案是也可以.需要以滚环扩增技术扩增ONT的DNA片段,每个拷贝都是对原始DNA片段的拷贝.然后以测序这个多个拷贝形成的DNA片段.
除此之外,PacBio也存在一些问题.比如我们测序观察哪个碱基是通过荧光强度图.但是我们难以判断碱基的数量,比如下图:
假设每个颜色都对应一个碱基的话,我们难以判断紫色的长度代表多少碱基.
这种问题,ONT也存在,我们判断什么碱基是通过电流的波动.但是如果一直都是一样的碱基,就有可能电流没有波动,实际DNA是在马达蛋白移动了,而我们会以为它没有移动.
也就是说ONT和PacBio都存在会少判断或多判断碱基的可能性(因为重复碱基的问题),这种问题叫INDEL.
5. 高通量测序技术比较
Illumina和mGI称为第二代测序技术,PacBio是第三代测序技术,Nanpore也是第三代测序技术(但也有把它称为第四代的).前两个也是大规模并行测序(massively parallel sequencing,简写MPS),后两个是单分子测序(single molecule sequencing, SMS).
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了