基于自动编码器的赛车视角转换与分割

本篇文章将介绍如何将赛道的图像转换为语义分割后鸟瞰图的轨迹。

如下所示,输入图像为

输出:

总结来说我们的任务是获取输入图像,即前方轨道的前置摄像头视图,并构建一个鸟瞰轨道视图,而鸟瞰轨道视图会分割不同的颜色表示赛道和路面的边界。

仅仅从输入图像中提取出关于走向的信息是相当困难的,因为未来的许多轨道信息被压缩到图像的前20个像素行中。鸟瞰摄像头能够以更清晰的格式表达关于前方赛道的信息,我们可以更容易地使用它来规划汽车的行为。

在正常行驶时拍摄鸟瞰图是非常难实现的,所以如果我们可以使用前置摄像头的图像重建这些鸟眼图像,就能让我们用更清晰信息来进行路径的规划。另一个好处是可以降低维度,有效地将整个图像表示为一组32个数字,这比整个图像占用的空间少得多。并且如果还可以使用这种低维数据作为强化学习算法的观察空间。

本文中利用一种叫做变分自动编码器(VAEs)的工具来帮助我们完成这项任务。简单地说,我们把图像压缩到32维的潜在空间,然后重建我们分割的鸟瞰图。本文末尾的PyTorch代码显示了完整的模型代码。

为了训练这一点,我们从前置摄像头和鸟类摄像头收集了一系列图像。然后用编码器进行编码,然后使用全连接的层将维度降低到目标大小,最后使用解码器用一系列反卷积层重建图像。

结果如下所示:

虽然我们可以在重建中看到一些噪声,但它可以很好地捕捉到整体曲线。代码如下:

 

完整文章

https://avoid.overfit.cn/post/48f129f8e05242128cc55be13433ad0a

posted @   deephub  阅读(10)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示