论文阅读DSAE，不知道VAE能不能玩的下去

前段时间一直想扩展双臂，因为桌面变了，摄像头调高了才能看见全貌

训练效果一直很差

希望（500epcho）：

在这里插入图片描述

现实(5000epcho)：

在这里插入图片描述

发现了这篇arXiv:1509.06113

稍微总结一下要点，防止以后忘了，这里是另一种autoencoder

并没有支持变分，不过名字叫 Deep Spatial Autoencoder,

与一般的autoencoder不同的是，这个算法关注的是where而不是一般的what

隐空间 $z$ 里面存的是feature points的坐标。然后在原图中标记出来
在这里插入图片描述
算法首先搜集数据然后训练编码器，loss依然是自动编码器的那个loss: $||x - \hat x||_2^2$

其中 $x$ 是原图， $\hat x$ 是还原后的图像

在这里插入图片描述

encoder如上图，先是三层卷积层然后softmax $s_{c i j}=e^{a_{c i j} / \alpha} / \sum_{i^{\prime} j^{\prime}} e^{a_{c i^{\prime} j^{\prime}} / \alpha}$ 把他变成一个分布，然后求期望 $\mathbf{f}_{c}=\left(\sum_{i} i * s_{c i j}, \sum_{j} j * s_{c i j}\right)$ 求出16个坐标也就是32个数字

一个全联通的线性模型来恢复原图，loss：

$\mathcal{L}_{\mathrm{DSAE}}=\sum_{t, k} \| I_{\text { downsamp,k }, t}-h_{\operatorname{dec}}\left(\mathbf{f}_{k, t}\right)\left\|_{2}^{2}+g_{\text { slow }}\left(\mathbf{f}_{k, t}\right)\right.$

第k个样本，第t时刻的图片， $\mathbf{f}_{k, t}=h_{\mathrm{enc}}\left(I_{k, t}\right)$ 是编码后的feature

$g_{\text { slow }}\left(\mathbf{f}_{t}\right)=\left\|\left(\mathbf{f}_{t+1}-\mathbf{f}_{t}\right)-\left(\mathbf{f}_{t}-\mathbf{f}_{t-1}\right)\right\|_{2}^{2}$ 可以理解为机械臂的移动的加速度，最小化这个目的是让机械臂尽量匀速

自己原来的vae里的 $z$ 是没管里面是啥的，这里是feature points的pos，似乎也可以假设他服从正态分布。这样一来，是不是就是个，ummmmm，Deep Spatial VAE了，好的，我摸了

老板让先用ground turth的先把强化的框架跑出来，毕竟，要毕业嘛，先记在这个小本本上，估计后面再摸吧

在这里插入图片描述

posted @ 2019-04-14 19:46 伟大的蚊子阅读(263) 评论(0) 收藏举报

刷新页面返回顶部

cww97的博客

csdn新皮肤太丑了

论文阅读DSAE，不知道VAE能不能玩的下去

公告