Marker效果试用,也是pdf2md

环境配置

python 3.9才能用

 所以开了个新conda环境pytorch-py3.9

windows下开启离线模式的方法

set HF_HUB_OFFLINE=1

试用

marker_single ./技术深度解剖.pdf ./ --batch_multiplier 2  --langs Chinese  --debug

试了下时间很快,效果不错

 

 

 

主要原理

Marker的工作原理基于深度学习模型。它首先通过OCR技术(如果需要的话)提取文本(采用启发式算法和 tesseract 工具),然后检测页面布局并确定阅读顺序(使用 布局分割器[1] 和 列检测器[2])。接下来,Marker会对每个文本块进行清洁和格式化处理(运用启发式算法和 nougat[3]),最后将所有块合并并进行后处理,生成完整的Markdown文本(利用启发式算法和 pdf后处理器[4])。Marker只在必要时使用模型,从而提高了速度and准确性

[1] 布局分割器: https://huggingface.co/vikp/layout_segmenter
[2] 列检测器: https://huggingface.co/vikp/column_detector
[3] nougat: https://huggingface.co/facebook/nougat-base

[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5

第一次跑,发现跑不起来,少了个模型vikp/texify  信息来源https://www.bilibili.com/read/cv29426242/ 出处:bilibili

发现跑不起来之后又开了离线模式,从报错发现还需要vikp/surya_det3  vikp/surya_layout3 vikp/surya_order vikp/surya_rec

参考链接

【1】一个开源的快速准确地将 PDF 转换为 markdown工具_pdf markdown-CSDN博客

【2】VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy (github.com)

posted @ 2024-08-01 20:40  风之炼金术士华华  阅读(166)  评论(0编辑  收藏  举报