高通量测序基本知识

由于现在手头所分析的RNA-seq要用到的数据全部是来自与Illumia测序,所以决定先看看Illumina的测序原理。

决定先看youtube上的陈巍学基因。

https://www.youtube.com/watch?v=VvS8NEJGxnM

其中的一些注意点:

1)adapter是接头,分为pcr扩增接头和测序接头,分别用于文库构建和测序的引物。
index是索引序列,为区分不同样本而构建。高通量测序一次一块板要加好多样品,如果你的样品少那单独测你的测序公司就亏了,因此把你的和别人的样品放到一起,分别加个index用以区分,测序结束后就可以根据index来分离单个样本了

2)双端测序,应该是先从第一链的接头那里开始测,测完后,从第二链的接头那里开始测,并非是在一条链上两端测序

 

3)Pair-end reads,就是双端测序,简称PE,也就是一段DNA,从正向读一次,再从反向读一次。与双端测序相对的,是单端测序,也叫Sing read,简称SR,在中国大陆,也有许多人将之称为SE,single-end。

4)1、测序深度:测序得到的总碱基数与待测基因组大小的比值。假设一个基因组大小为7M,测序总碱基数为70M,则测序深度为10×。
   2、覆盖度:测序获得的序列占整个基因组的比例。由于基因组中高GC含量,重复序列等复杂结构的存在,测序最终拼接组装的序列往往无法覆盖所有的区域,这些区域就叫做Gap。

   二者的关系:测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。

5)RPKM(reads per kilobase per million reads)是每百万读段中来自于某基因每千碱基长度的读段数。其公式为:

  

    其中,total exon reads指映射到某个基因上的reads数,mapped reads指map到所有基因的总的reads数。
    RPKM不仅对测序深度作了归一化,而且对基因长度也作了归一化,使得不同长度的基因在不同测序深度下得到的基因表达水平估计值具有了可比性,是目前最常用的基因表达估计方法

之所以分母还要加上这个基因的外显子长度。因为基因是被打断从而测序的,如果一个基因的外显子越长,则其所产生的RNA就越长,被打出来的小片段就越多,比如A基因,1kb,则其可能会被打成5个200bp,而B基因,2kb,则10个200bp,所以B基因在测序中被测到的概率会比A高一倍。除以外显子长度,是为了修正mRNA长度所引起的mRNA的read数的偏差。

 

posted @ 2017-03-06 10:09  熵负  阅读(6925)  评论(0编辑  收藏  举报