基于自动编码器的赛车视角转换与分割

本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。

如下所示，输入图像为

输出：

总结来说我们的任务是获取输入图像，即前方轨道的前置摄像头视图，并构建一个鸟瞰轨道视图，而鸟瞰轨道视图会分割不同的颜色表示赛道和路面的边界。

仅仅从输入图像中提取出关于走向的信息是相当困难的，因为未来的许多轨道信息被压缩到图像的前20个像素行中。鸟瞰摄像头能够以更清晰的格式表达关于前方赛道的信息，我们可以更容易地使用它来规划汽车的行为。

在正常行驶时拍摄鸟瞰图是非常难实现的，所以如果我们可以使用前置摄像头的图像重建这些鸟眼图像，就能让我们用更清晰信息来进行路径的规划。另一个好处是可以降低维度，有效地将整个图像表示为一组32个数字，这比整个图像占用的空间少得多。并且如果还可以使用这种低维数据作为强化学习算法的观察空间。

本文中利用一种叫做变分自动编码器(VAEs)的工具来帮助我们完成这项任务。简单地说，我们把图像压缩到32维的潜在空间，然后重建我们分割的鸟瞰图。本文末尾的PyTorch代码显示了完整的模型代码。

为了训练这一点，我们从前置摄像头和鸟类摄像头收集了一系列图像。然后用编码器进行编码，然后使用全连接的层将维度降低到目标大小，最后使用解码器用一系列反卷积层重建图像。

结果如下所示：

虽然我们可以在重建中看到一些噪声，但它可以很好地捕捉到整体曲线。代码如下：

完整文章

posted @ 2022-06-13 10:53 deephub 阅读(38) 评论(0) 收藏举报

刷新页面返回顶部

deephub