摘要: 概述 LayoutLMv2是对LayoutLM的改进,主要有以下几点区别: 将视觉信息加入到了预训练阶段,而不是LayouLM中的微调阶段 删除了MDC,添加了text-image alignment和text-imgae matching两个预训练任务 将spatial-aware的自注意力机制整 阅读全文
posted @ 2022-09-07 14:24 SpicyWonton 阅读(755) 评论(1) 推荐(1) 编辑
摘要: 概述 LayoutLM是一个基于Bert,结合了文本和版式信息的文档预训练模型,在多个下游任务中都达到了当时SOTA的结果。 模型 模型的总体结构如图1所示: 图1 LayoutLM总体结构 LayoutLM在Bert的基础上添加了2-D Position Embedding和Image Embed 阅读全文
posted @ 2022-09-07 10:51 SpicyWonton 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 概述 EnsNet是一个使用Pix2Pix思想的文字擦除网络,它的主要贡献如下: 可以使用整张图片来进行端到端训练 使用lateral connection捕捉更多的特征 提出refined loss保证生成图片的真实性 提出local-aware的判别器,让网络的优化目标集中在文字区域上 模型 模 阅读全文
posted @ 2022-01-21 17:02 SpicyWonton 阅读(543) 评论(0) 推荐(0) 编辑
摘要: Introduction 在论文的开始,作者提出了"close" false positive,这些false positive比较接近但不是true positive,使得检测器难以区分"close" false positive和true positive,这是目标检测的主要难点之一。当前的检测 阅读全文
posted @ 2021-10-02 21:30 SpicyWonton 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 概述 之前的DETR使用Transformer成功地实现了目标检测,而Deformable DETR针对DETR的缺点提出了一些改进。DETR主要有以下两个缺点: 相比于其它的目标检测模型,DETR需要更多的epoch才能收敛 DETR很难检测出小物体 对于第一个问题,作者认为这是Attention 阅读全文
posted @ 2021-09-21 14:50 SpicyWonton 阅读(3120) 评论(0) 推荐(0) 编辑
摘要: 概述 DETR使用了目前很火的transformer实现了目标检测,同时也是一个真正意义上的anchor-free模型(不像FCOS,用锚点代替锚框)。DETR主要有以下两个特点: 使用了bipartite matching loss,为每一个预测框唯一地分配一个gt框 在transformer中使 阅读全文
posted @ 2021-09-19 10:05 SpicyWonton 阅读(2611) 评论(0) 推荐(0) 编辑
摘要: 概述 与CornerNet类似,FCOS也是一个anchor-free的模型,它通过逐像素的方式实现目标检测,类似于语义分割,FCOS主要有以下优点: 将目标检测和其它FCN-sovable任务比如语义分割统一起来,因此可以很容易将FOCS移植到其它的任务中 实现了anchor-free和propo 阅读全文
posted @ 2021-09-18 11:37 SpicyWonton 阅读(878) 评论(0) 推荐(0) 编辑
摘要: 概述 CornerNet是一个anchor-free目标检测模型,至于为什么不使用anchor,作者提出了anchor-based模型的两个缺点: 每张图片需要大量的anchor,而只有少量的anchor与ground truth有较大的IoU(positive),这导致了positive和nega 阅读全文
posted @ 2021-09-12 18:44 SpicyWonton 阅读(282) 评论(0) 推荐(0) 编辑
摘要: Background 目标检测的一个关键问题是如何检测大小不同的物体,当前(指论文发表的时期)主流的模型都会使用多层特征图进行预测,其中浅层的特征图预测小物体,深层的特征图预测大物体。另外,还需要对图片每一个像素设置不同大小和宽高比的锚框,并根据IOU将锚框和目标框进行对应。不同大小的物体根据其与每 阅读全文
posted @ 2021-09-12 10:28 SpicyWonton 阅读(517) 评论(0) 推荐(0) 编辑