[论文笔记] :MetaCell: analysis of single-cell RNA-seq data using K-nn graph partitions
论文是一种非参数方法将细胞分为不相交的细胞团,同时避免数据平滑
整个算法流程为:
1. 原始矩阵进行特征选择
2. 构建平衡KNN图:如果我们用传统的相似性网络作为基因的co-expr网络的时候,每个节点根据阈值的选择,不同节点的出度,入度都不一样,即每个节点的邻居节点个数是不确定的,这对于每个基因的打分并不公平,所以我们构建每个基因和其他基因的相似性后对相似性进行排序,并且根据排序的前k个选择网络的连边,这样就完成了相似性网络的平衡化。
这里的第一步是对网络的相似性进行一个预筛选,去掉特别小的相似性对,而且采用这种形式也可以使得第二部排序越大的相似性越低
第二部是为了筛选出入度边边权排在前3k的gene-pair
第三步是为了筛选出出度边权排在前k的gene-pair,
经过上面三部就构建了基因相似性平衡网络
3. 对上面构建的网络进行多次重采样,然后整合多次重采样网络构建的网络权重
4. 对重采样后的网络执行图上的聚类操作
a. 对网络标注初始的标签,其实就是设计了一个算法,类似于bfs为每个节点定义了一个初始的标号
b. 每次都最大化类内的入度边和出度边去更新所有节点的编号
这里的wi_ik是所有k这个类别中的细胞对中指向 i 这个节点的入度边的权重
同样wo_ik是所有k这个类别中的细胞对中指出 i 这个节点的入度边的权重
那么其实wi_ik和wo_ik都反应了类内的链接强度,最后用这两个指标相乘再用这个类别的细胞数目正则化一下优化的目标函数,每次重新定义标签都去想办法最大化这个值就可以了!