Marker效果试用，也是pdf2md

环境配置

python 3.9才能用

所以开了个新conda环境pytorch-py3.9

windows下开启离线模式的方法

set HF_HUB_OFFLINE=1

试用

marker_single ./技术深度解剖.pdf ./ --batch_multiplier 2 --langs Chinese --debug

试了下时间很快，效果不错

主要原理

Marker的工作原理基于深度学习模型。它首先通过OCR技术（如果需要的话）提取文本（采用启发式算法和 tesseract 工具），然后检测页面布局并确定阅读顺序（使用布局分割器[1] 和列检测器[2]）。接下来，Marker会对每个文本块进行清洁和格式化处理（运用启发式算法和 nougat[3]），最后将所有块合并并进行后处理，生成完整的Markdown文本（利用启发式算法和 pdf后处理器[4]）。Marker只在必要时使用模型，从而提高了速度and准确性

[1] 布局分割器: https://huggingface.co/vikp/layout_segmenter
[2] 列检测器: https://huggingface.co/vikp/column_detector
[3] nougat: https://huggingface.co/facebook/nougat-base

[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5

第一次跑，发现跑不起来，少了个模型vikp/texify 信息来源https://www.bilibili.com/read/cv29426242/ 出处：bilibili

发现跑不起来之后又开了离线模式，从报错发现还需要vikp/surya_det3 vikp/surya_layout3 vikp/surya_order vikp/surya_rec

参考链接

【1】一个开源的快速准确地将 PDF 转换为 markdown工具_pdf markdown-CSDN博客

【2】VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy (github.com)

posted @ 2024-08-01 20:40 风之炼金术士华华阅读(752) 评论(0) 收藏举报

刷新页面返回顶部

风之炼金术士华华

Marker效果试用，也是pdf2md

公告