think_deeply

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

简短的速记t-SNE的作用,我是阅读了原文和一些博文才敢记录的

原文:Accelerating t-SNE using Tree-Based Algorithms

博文:https://distill.pub/2016/misread-tsne/https://www.deeplearn.me/2137.htmlhttp://bindog.github.io/blog/2018/07/31/t-sne-tips/https://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis/http://bindog.github.io/blog/2018/07/31/t-sne-tips/

强烈建议阅读PPT:作者怒号:不要瞎用我的t-SNE!

Do's and Don'ts of using t-SNE to Understand Vision Models


 

t-SNE:学生t分布随机紧邻映射

目的是将高维的特征向量用低维(2维)点可视化。数学描述为:将高维特征向量的相似性用概率分布表示,此概率分布密度由高维向量的欧式距离决定,但不是正比关系,因为自己与自己的相似性为1但是条件概率为0;基于这个概率分布,在低维空间中找两个点构成低维空间的概率分布,通过梯度下降优化以上两个高维、低维空间概率分布的KL散度,可以求得低维空间上的两个点之间的关系。

简言之,高维空间上相似的两个向量在低维空间上的对应点更靠近。

注意:

1. t-SNE可视化关键作用在于将相似的特征聚集起来,仅此而已,即不相似的特征分开,相似的特征聚集,也就说尽量不存在不相似的特征重叠!!!

2. t-SNE可视化中任何两蔟集群的【间距都是没有任何意义的】,因为集群之间的距离并不能反映特征的不相似性和相似性!有很多论文都用错了这一点,特别注意,即便所有的超参都设置相同,随机两次的相同实验也不太可能得到相同的集群情况,因为t-SNE是在解决一个非凸优问题!

3. t-SNE可视化中一簇集群的聚集程度【可能也是没有意义的】,注意是可能!还是那么说,t-SNE的聚集程度都是可以通过不同的调参调出来的

4. t-SNE可视化的聚集与分离不能给出模型分类好坏的结论;但是可以作为要处理的数据集是否可被良好分类的引导和启发后面研究的先验

5. 再次重申,t-SNE可视化发现类间不混叠才是他的主要用途,而不同集群的距离和同一集群的聚集程度都没有意义

 

posted on 2020-12-19 21:50  think_deeply  阅读(458)  评论(0编辑  收藏  举报