RNA-seq数据为什么要去噪

1.为什么要去噪?深度模型拟合如ZINB分布有什么作用?

为何假定服从ZINB分布,这个假定是有效的?

模型拟合出ZINB分布的参数,然后呢?数据与raw数据相比会有什么改变吗?

学习了这篇基于双线性回归的去噪模型:

 

 

说明了填充数据是对dropout的点进行填充的,那怎么就能确定这个0是dropout还是正常0?

此论文中说,有根据细胞相似性填充的,有根据基因相似性填充的。我还是先把这个硕士论文搞明白一下吧。

2.学习一下《Gaussian mixture clustering and imputation of microarray data》看它里面有没有说清楚。

 

3.为什么要选择NB分布?

https://mp.weixin.qq.com/s/m2ydqpKofYo2bK61A9hZWw 这个讲的很好。

因为对于泊松分布来说,它的均值=方差,但是实际上对于RNA的数据,均值!=方差,出现了过离散,所以NB分布更合适。

posted @ 2020-01-03 21:44  lypbendlf  阅读(501)  评论(0编辑  收藏  举报