12 2022 档案

摘要:1、MAE 基于VIT,BERT自监督的算法引用到CV;主要思路是遮住大量的块,使用非对称的编码解码器(编码器看非mask块) 视觉和BERT不同点: 1.图片的信息密度高,仅mask部分像素,可以通过周围像素差值来获得,因此这里需要mask掉很大的比例 2、NLP还原的是词,因此通过简单的全连接就 阅读全文 »
posted @ 2022-12-19 08:57 哈哈哈喽喽喽 阅读(27) 评论(0) 推荐(0) 编辑
摘要:0、图文多模态学习 包含以下: 普通多模态学习,如图文检索、视觉问答、视觉推理、视觉蕴含: CLIP language guided detection language guided segmentation 文本图像生成:Dall.E2, Stable Diffusion 文本视频生成 1、普通 阅读全文 »
posted @ 2022-12-16 19:20 哈哈哈喽喽喽 阅读(275) 评论(0) 推荐(0) 编辑
摘要:0、Abstract 自驾特征融合背景:自驾传感器方案由复杂的多个摄像头,激光雷达,rada等组成, 而融合多个传感器输入到统一视图的表示特征至关重要 BEV感知实现特征融合好处:BEV特征表示是 融合好的和直观的(可以直接在规控中使用) BEV感知核心问题: (a)如何通过透视视图到BEV的视图变 阅读全文 »
posted @ 2022-12-05 21:25 哈哈哈喽喽喽 阅读(1708) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示