RNA-seq数据为什么要去噪
1.为什么要去噪?深度模型拟合如ZINB分布有什么作用?
为何假定服从ZINB分布,这个假定是有效的?
模型拟合出ZINB分布的参数,然后呢?数据与raw数据相比会有什么改变吗?
学习了这篇基于双线性回归的去噪模型:
说明了填充数据是对dropout的点进行填充的,那怎么就能确定这个0是dropout还是正常0?
此论文中说,有根据细胞相似性填充的,有根据基因相似性填充的。我还是先把这个硕士论文搞明白一下吧。
2.学习一下《Gaussian mixture clustering and imputation of microarray data》看它里面有没有说清楚。
3.为什么要选择NB分布?
https://mp.weixin.qq.com/s/m2ydqpKofYo2bK61A9hZWw 这个讲的很好。
因为对于泊松分布来说,它的均值=方差,但是实际上对于RNA的数据,均值!=方差,出现了过离散,所以NB分布更合适。