SpicyWonton

2022年9月7日

【论文笔记】LayoutLMv2：将视觉信息加入到预训练阶段的跨模态文档预训练模型

摘要：概述 LayoutLMv2是对LayoutLM的改进，主要有以下几点区别：将视觉信息加入到了预训练阶段，而不是LayouLM中的微调阶段删除了MDC，添加了text-image alignment和text-imgae matching两个预训练任务将spatial-aware的自注意力机制整阅读全文

posted @ 2022-09-07 14:24 SpicyWonton 阅读(978) 评论(1) 推荐(1)

【论文笔记】LayoutLM：首次结合文本和版式信息的文档预训练模型

摘要：概述 LayoutLM是一个基于Bert，结合了文本和版式信息的文档预训练模型，在多个下游任务中都达到了当时SOTA的结果。模型模型的总体结构如图1所示：图1 LayoutLM总体结构 LayoutLM在Bert的基础上添加了2-D Position Embedding和Image Embed 阅读全文

posted @ 2022-09-07 10:51 SpicyWonton 阅读(661) 评论(0) 推荐(0)

2022年1月21日

【论文笔记】EnsNet：使用Pix2Pix思想的文字擦除网络

摘要：概述 EnsNet是一个使用Pix2Pix思想的文字擦除网络，它的主要贡献如下：可以使用整张图片来进行端到端训练使用lateral connection捕捉更多的特征提出refined loss保证生成图片的真实性提出local-aware的判别器，让网络的优化目标集中在文字区域上模型模阅读全文

posted @ 2022-01-21 17:02 SpicyWonton 阅读(688) 评论(0) 推荐(0)

2021年10月2日

【论文笔记】Cascade R-CNN：通过多次回归提高检测质量

摘要： Introduction 在论文的开始，作者提出了"close" false positive，这些false positive比较接近但不是true positive，使得检测器难以区分"close" false positive和true positive，这是目标检测的主要难点之一。当前的检测阅读全文

posted @ 2021-10-02 21:30 SpicyWonton 阅读(505) 评论(0) 推荐(0)

2021年9月21日

【论文笔记】Deformable DETR：使用稀疏Attention实现目标检测

摘要：概述之前的DETR使用Transformer成功地实现了目标检测，而Deformable DETR针对DETR的缺点提出了一些改进。DETR主要有以下两个缺点：相比于其它的目标检测模型，DETR需要更多的epoch才能收敛 DETR很难检测出小物体对于第一个问题，作者认为这是Attention 阅读全文

posted @ 2021-09-21 14:50 SpicyWonton 阅读(3566) 评论(0) 推荐(0)

2021年9月19日

【论文笔记】DETR：用transformer做目标检测

摘要：概述 DETR使用了目前很火的transformer实现了目标检测，同时也是一个真正意义上的anchor-free模型（不像FCOS，用锚点代替锚框）。DETR主要有以下两个特点：使用了bipartite matching loss，为每一个预测框唯一地分配一个gt框在transformer中使阅读全文

posted @ 2021-09-19 10:05 SpicyWonton 阅读(3196) 评论(0) 推荐(0)

2021年9月18日

【论文笔记】FCOS：通过像素级的预测实现目标检测

摘要：概述与CornerNet类似，FCOS也是一个anchor-free的模型，它通过逐像素的方式实现目标检测，类似于语义分割，FCOS主要有以下优点：将目标检测和其它FCN-sovable任务比如语义分割统一起来，因此可以很容易将FOCS移植到其它的任务中实现了anchor-free和propo 阅读全文

posted @ 2021-09-18 11:37 SpicyWonton 阅读(1052) 评论(0) 推荐(0)

2021年9月12日

【论文笔记】CornerNet：预测左上角和右下角来实现目标检测

摘要：概述 CornerNet是一个anchor-free目标检测模型，至于为什么不使用anchor，作者提出了anchor-based模型的两个缺点：每张图片需要大量的anchor，而只有少量的anchor与ground truth有较大的IoU（positive），这导致了positive和nega 阅读全文

posted @ 2021-09-12 18:44 SpicyWonton 阅读(467) 评论(0) 推荐(0)

【论文笔记】FSAF：为目标框选择最好的特征层

摘要： Background 目标检测的一个关键问题是如何检测大小不同的物体，当前（指论文发表的时期）主流的模型都会使用多层特征图进行预测，其中浅层的特征图预测小物体，深层的特征图预测大物体。另外，还需要对图片每一个像素设置不同大小和宽高比的锚框，并根据IOU将锚框和目标框进行对应。不同大小的物体根据其与每阅读全文

posted @ 2021-09-12 10:28 SpicyWonton 阅读(625) 评论(0) 推荐(0)

公告