文献分析 基于监督学习的细胞类型注释策略 Evaluation of some aspects in supervised cell type identification for single-cell RNAseq: classifier, feature selection, and reference construction
原文pdf连接
摘要
|
Progress
|
Challenge
|
Demand
|
Background
|
|
||
|
|
|
|
Solve
|
What
|
How
|
Effect
|
通过实际数据分析评估不同的策略组合
|
参考数据的影响以及参考数据的处理策略
|
提供了使用监督细胞分型方法的指南和经验法则
|
|
Result
|
Study design
Methods under comparison
3种现成的:random forest, SVM with linear kernel, and SVM with radial basis function kernel
2种基于scRNA相关性的方法: scmap and CHETAH
2种监督深度学习方法:multi-layer perceptron (MLP) and graph-embedded deep neural network (GEDFN)
2种半监督深度学习:ItClust with transfer-learning and MARS with meta-learning concepts
虽然还有其他方法,但基于已有的研究,SVM with rejection, scmap, and CHEAH是他们中最好的
纳入GEDFN方法是为了研究基因网络信息是否有帮助
ItClust 只是用ref数据得到非监督聚类的参考值
Feature selection methods
关键是很多基因不是类型特异的,应该去除
3中非监督变量选择:Seurat, FEAST, F-test
不选择
在ref中选择,在tar中选择
在ref中不选择,在tar中选择
在ref中选择,在tar中不选择
Datasets
人PBMC
10X,lupus patients
10X,Smart-seq2,CEL-seq2 pbmc1 fresh
10X,Smart-seq2,CEL-seq2 pbmc2 fresh
人胰腺
3个
小鼠脑
Drop-seq frontal cortex “Mouse brain FC”
Drop-seq hippocampus regions “Mouse brain HC”
10X prefrontal cortex region “Mouse brain pFC”
DroNc-seq cortex samples “Mouse brain cortex”
10X frontal cortex regions s “Mouse brain Allen”
经过分选的人PBMC数据作为标准
ref和tar来自不同的平台会怎样?
ref和tar来自不同的样本状态会怎样?
来自不同的实验室?
来自不同的组织区域?
来自不同的生理状态?
研究:整合多个数据是否提高性能?
研究:去除噪声细胞是否提升性能?
Evaluation metrics Accuracy:正确注释的在全体细胞中占比
Adjusted Rand Index:聚类相似性
Macro F1:只用于在细胞类型比例不平衡时评估精度和召回率
运行时间
Summary of the study design |
||
F-test on reference datasets + MLP
基于F-test的特征选择和MLP的组合 |
|||
Impact of the reference data size
(1) 0 to 1000 cells, (2) 1000 to 5000 cells, (3) 5000 to 10000 cells, and (4) 10,000
基于学习的方法细胞数越多排名越高(MLP,SVM)
|
|||
Impact of number of cell types
一个组织中有少数主要类型,有许多子类,子类的比较相似,不好区分
|
|||
Impact of cell type annotations
上述注释结果来自marker,现在以分选数据作为金标准
|
|||
Impact of data preprocessing
评估去除batch效应或者数据插补带来的影响
先评估三种插补方法:没有明显提升,结论为不必要
在评估batch效应去除:Harmony and fastMNN(指的是ref数据和tar数据之间的batch effect)
批次效应不会影响预测性能,可能不需要校正,我们直接将数据集连接起来进行以下分析。
|
|||
Drop-seq frontal cortex “Mouse brain FC”
Drop-seq hippocampus regions “Mouse brain HC”
10X prefrontal cortex region “Mouse brain pFC”
DroNc-seq cortex samples “Mouse brain cortex”
10X frontal cortex regions s “Mouse brain Allen”
Condition effect
个体差异:不同样本的差异
条件差异:技术差异
Comparing individual effect(只有样本不同), region effect, and dataset effect in mouse brain data
将“Mouse brain FC”的一个个体固定为tar数据
individual effect : 相同数据来源“Mouse brain FC”
biological effect(区域效应):“Mouse brain HC”
dataset effect:“Mouse brain cortex”和“Mouse brain pFC”
Comparing batch effect and clinical difference in Human PBMC
选择疾病的“Human PBMC lupus”作为tar数据
individual effect:同批次不同个体
batch effect:不同批次
clinical difference:不同批次不同生理状态(不同处理)
人数据差是因为包括了子类,子类多信号弱
Conclusions on conditional effects between reference and target datasets
1.individual effects个体效应最小(相同条件,相同数据,不同样本)
2.biological effect对主要细胞类型的注释影响不大(不同样本,海马体的主要细胞类型可用于注释额叶皮层的主要细胞类型)
以上情况在实际中不常见,实际一般是跨数据集的
3.在跨数据集的情况下,主要细胞类型的注释效果并不受太大影响
4.在没有强烈的实验处理差异的情况下,主要细胞类型的注释不受太大的影响
|
|||
Pooling references improves the prediction results
固定一个数据作为tar数据
结合不同条件和不同样本的数据作为大的ref
通过抽样去除细胞数量增多带来的影响
数据集内预测:
选择“Human PBMC lupus,” 和“Mouse brain FC”数据的主要类型
选择“Mouse brain FC”的子类
数据集间预测:
用“Mouse brain FC”预测“Mouse brain pFC.”
Individual effect, pooling effect, and downsampled pooling effect
ABC是数据集内预测,蓝线是合并并抽样,黑色是合并不抽样,其中C为子类
合并对子类预测提升较大
D是数据集间预测,整合同样得到相对较好的结果
Pooling reference from different conditions can improve the prediction results
研究整合不同条件的数据带来的影响
整合不同区域和不同数据的小鼠脑数据
整合不同批次和不用处理条件的PBMC数据
首先在数据集内部整合样本,再整合数据集外部
整合数据会减少不同条件带来的偏差
扩大数据集在什么时候达到饱和点?
三个方面:
(1)预测相同数据集中的主要类型
(2)预测不同数据集中的主要类型
(3)预测相同数据集中的子类
两个途径:
结合不同细胞数样本的数据作为ref
先结合数据,再随机抽样作为ref
A是“Mouse brain FC”数据集内部的主要类型预测,细胞数增加时明显饱和
B是结合“Mouse brain pFC” and “Mouse brain Allen” 主要类型来预测“Mouse brain FC”的样本
C是“Mouse brain FC” 数据集内部的子类预测,尚未达到饱和,需要更多数据
|
|||
Purifying references does not improve the prediction results
两种策略:去除10%边缘的细胞
(1)基于距离的纯化
(2)基于概率纯化
纯化对预测主要类型的提升不大,因为细胞类型的异常值对分配标签的影响不大,但是,当存在子细胞类型时,细胞簇之间的异常值会充当噪声,通过去除这些异常值,可以稍微提高预测。(是不是本质上还是数据量和信号的问题?)
|
|||
Predicting sub-cell types
困难所在:
1.不同数据集的子类定义不一致
对于不同组织类型和不同条件下的数据需要做到全面+一致的细胞子类定义
如果没有这种一致的定义,我们建议:(待研究)
使用监督方法预测主要细胞类型
再对主要类型分别进行无监督注释
|
|||
Predicting novel cell types
监督方法只能注释已有的标签
但是可以设置打分阈值,当分数太低时将细胞注释为unassigned
移除一些ref中的细胞类型(一种或两种)
显示是否能将预测概率较低的细胞注释为unassigned
(待研究)
|
|||
Computational performance
训练时间:ref的细胞数,ref的细胞类型
MLP方法与二者的关系较小
|
|||
|
|||
Conclusion& Discussion
|
建议: 1.对ref数据进行基于F-test的变量选择,MLP作为分类器(ref细胞数大于5000)(SVM也行但是计算效率太低) 2.在ref细胞数小于1000时,基于相关性的scmap交优 3.ref和tar之间的差值和批次效应不用处理 4.注释是ref和tar之间的biological and clinical conditions 应该匹配,不过对主要细胞类型的影响不大 5.pooling不同数据集提升结果(关键是平均一些生物和技术的差异) 6.饱和度分析中发现加入某些数据会导致效果下降,如何选择高质量的ref数据是关键 7.纯化数据没有大用 主要细胞类型的注释比较容易,但是由于不同数据集的子类定义差异,子类注释比较困难;很可能是因为,不同biological and clinical 条件下,子类确实是不同的 所以不建议子类的直接监督注释,建议分两步: 1.监督注释完成主要细胞类型的注释 2对子类进一步非监督聚类+(marker,功能分析) |
||
Method
|
|
||
"The world is a fine place and worth fighting for." I agree with the second part.