05 2022 档案

MASTER: Multi-aspect non-local network for scene text recognition

摘要：https://arxiv.org/pdf/1910.02562.pdf 总体介绍基于Seq2Seq的OCR改进文章，提出两个问题，encoder特征间相似度太高导致注意力不准 & RNN-based的结构需要逐个step跑效率太低： 1、 such methods suffer from att 阅读全文

posted @ 2022-05-16 00:20 叠加态的猫阅读(436) 评论(0) 推荐(0)

On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

摘要：和用LSTM的方法对比，和transform相比主要区别在于编码器上，由3部分构成： 1、Shallow CNN，用于控制计算量 2、Adaptive 2D positional encoding 论文中说Transformer的Position Encoding模块可能在视觉作用中起不了作用，但阅读全文

posted @ 2022-05-06 10:13 叠加态的猫阅读(133) 评论(0) 推荐(0)

叠加态的猫

05 2022 档案

公告