Marker效果试用,也是pdf2md
环境配置
python 3.9才能用
所以开了个新conda环境pytorch-py3.9
windows下开启离线模式的方法
set HF_HUB_OFFLINE=1
试用
marker_single ./技术深度解剖.pdf ./ --batch_multiplier 2 --langs Chinese --debug
试了下时间很快,效果不错
主要原理
Marker的工作原理基于深度学习模型。它首先通过OCR技术(如果需要的话)提取文本(采用启发式算法和 tesseract 工具),然后检测页面布局并确定阅读顺序(使用 布局分割器[1] 和 列检测器[2])。接下来,Marker会对每个文本块进行清洁和格式化处理(运用启发式算法和 nougat[3]),最后将所有块合并并进行后处理,生成完整的Markdown文本(利用启发式算法和 pdf后处理器[4])。Marker只在必要时使用模型,从而提高了速度and准确性
[1] 布局分割器: https://huggingface.co/vikp/layout_segmenter
[2] 列检测器: https://huggingface.co/vikp/column_detector
[3] nougat: https://huggingface.co/facebook/nougat-base
[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5
第一次跑,发现跑不起来,少了个模型vikp/texify 信息来源https://www.bilibili.com/read/cv29426242/ 出处:bilibili
发现跑不起来之后又开了离线模式,从报错发现还需要vikp/surya_det3 vikp/surya_layout3 vikp/surya_order vikp/surya_rec
参考链接
【1】一个开源的快速准确地将 PDF 转换为 markdown工具_pdf markdown-CSDN博客
【2】VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy (github.com)