了解10X文库组成
转的文章
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/LittleComputerRobot/article/details/137207083
R1: 26 表示10X barcode 的 16bp碱基 + 10bp UMI;
i7: 8表示 8bp 样本index序列
Read 2: 98 中星号符号表示长度不固定。
4.1 i7 sample index的作用?
i7 sample index(library barcode)是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。不同的项目index不同,但在96孔板的每个孔中都加入了4种不同的index oligos混合,其作用就是在CellRanger mkfastq 功能(BCL转fastq)中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起表示同一个样本,从而保证了一个测序lane上可以容纳多个样本。
4.2 10X Barcode(Cell barcode)的作用?
10X Barcode(Cell barcode)是10X数据特有的,用来区分GEMs,可对细胞做了一个标记。
4.3 UMI的作用?
在scRNA测序中需要进行PCR扩增, 一些转录本会被扩增多次,超过了其真实的表达量。当起始文库DNA量很小时,在进行多次PCR扩增中,引入的误差会随着扩增次数的增加而增加。
UMI - Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量(重点)。
对UMI的要求:
不能是均聚物 ,如AAAAAAAAAA
不能有N碱基
不能包含碱基质量低于10的碱基
4.4 简而言之
Library Barcode (Sample Index) : 使用样本index序列进行多样本拆分
10x Barcode(Cell Barcode ): 用来区分细胞reads的来源
Unique Molecular Index (UMI) : 用来校正PCR扩增引起mRNA数量统计的偏差
Sequencing Reads : 用来识别基因的reads