摘要: DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming http://arxiv.org/abs/2406.19101 现存的文档理解多模态模型面临3个主要 阅读全文
posted @ 2024-08-27 17:29 Big-Yellow-J 阅读(42) 评论(0) 推荐(0) 编辑
摘要: Transformer模型 FrameWork 第一步:数据的预处理阶段(将文本处理为输入模型的数据类型) 以文本翻译任务(英译中)为例,并且Transform结构为encoder-decoder.那么对于模型的输入有两部分:src:目标原文本(英文);trg:预测文本(中文). src:'Some 阅读全文
posted @ 2024-08-27 17:28 Big-Yellow-J 阅读(152) 评论(1) 推荐(0) 编辑