单细胞测序之质控分析(QC 质量控制)

单细胞测序之质控分析(QC)

为什么要做质控?

在细胞分离过程中的细胞损伤或者文库制备的失败无效的逆转录或者PCR扩增失败),往往会引入一些低质量的数据。这些低质量的数据的主要特点是(以下一行表示一个基因,一列表示一个细胞):

  • 细胞整体上的counts值少(从列的角度看,一列数据的总和偏小)
  • 基因的低表达(从行的角度看,一行数据普遍过小)
  • 线粒体基因或者spike-in的比例相对较高

如果这些损伤的行或者列,没有被移除的话,可能会对下游的分析结果产生影响(比如:归一化,差异表达,细胞分类等)。所以我们在进行分析之前,一定要先移除这些低质量的行与列。



质控的指标
以下一行表示一个基因,一列表示一个细胞:
每一个细胞所有基因的counts值之和(一个细胞中的count之和过小;列上数值普遍过小)
在文库制备的过程中,可能因为细胞的裂解或cDNA捕获和扩增效率的低下,而使得RNA的丢失。具有较小的counts值之和的细胞被认为是低质量的细胞,考虑去除。

每一个细胞中单个基因的表达数量(一个基因在各个细胞中表达过低;行上数值普遍过小)
多样化的转录本如果没有被成功的捕获到,因此任何一个细胞中有很少的基因表达,被认为是低质量的,考虑去除。

每一个细胞中,spike-in序列/线粒体基因占总的counts值的比例
每个细胞中添加的spike-in序列(人为添加的表达量的参照系)的浓度都是等量的。如果spike-in的比值很高,那么就意味着在实验的过程中,大量的转录本丢失。
同样的,线粒体基因的高比例,也意味着这可能是由于穿孔细胞的细胞质RNA丢失,从而产生低质量的细胞。理由是,在存在适度细胞损伤的情况下,细胞膜上的孔允许单个转录物分子外排(丢失),但过小而无法使线粒体逸出,从而导致线粒体转录物的相对富集。


低质量细胞的影响
细胞破坏后,可能会导致线粒体或核RNAs占比升高(大量细胞质中mRNA流失,而线粒体或核RNAs含量基本不变),很有可能会根据这个结果形成自己的一个个cluster。
低质量的细胞一般文库比较小,而差异分析之前一般对文库大小进行一个归一化。比如正常细胞文库大小是100,某个基因表达量是2;损伤细胞的文库大小是10,这个基因表达量还是2。归一化后,损伤细胞中的这个基因表达量计算结果明显会高于正常细胞,呈现一种“本来不优秀,但班里人少了,排名就上升”的状态。
细胞损伤可能会伴随RNA的流失,因此许多基因可能会被认为“下调”,尤其体现在细胞质核糖体RNA(另外还包括一些细胞质转录本)。
影响方差估计和PCA结果。真实情况下,可能一个基因在两个细胞中差异并不显著,但是由于其中一个细胞质量低,导致基因表达量在这两个细胞中差异明显;反映在PCA结果就是:前几个主成分会抓取细胞质量的差异,因为这种差异体现得更明显,而将真正的生物学因素放到了后面几个主成分中,因此得到的PCA结果其实也只是反映了细胞质量的差异,而非真正的生物学差异。

如果一个细胞群体异质性较高,那么很有可能一些高质量细胞本身表达的数量就是比其他细胞少,但事实上它不是技术误差造成的。因此不能通过一个固定的阈值进行过滤,而要“因地制宜”,根据每群细胞各自的特性(比如各自的中位值),然后结合一定的统计指标(例如3倍的MAD)

过滤的细胞会不会属于某一个具有生物意义的细胞类群,如果真的是,那么就会有相应的marker基因高表达。


————————————————
REF
https://blog.csdn.net/weixin_40640700/article/details/114538295
https://blog.csdn.net/weixin_40640700/article/details/114538295
https://www.plob.org/article/20886.html
https://www.bilibili.com/read/cv7221663/





posted @ 2021-06-25 19:31  emanlee  阅读(3953)  评论(0编辑  收藏  举报