PDF转换工具Marker、MinerU、Markitdown对比分析

1 文件格式

插件

Marker

MinerU

Markitdown

magic-pdf

magic-doc

支持的文件格式

PDF、EPUB 和 MOBI

PDF

PPT、PPTX、DOC、DOCX、PDF

PDF,

PowerPoint,

Word,

Excel

Images (EXIF metadata and OCR),

Audio (EXIF metadata and speech transcription),

HTML,

CSV,

JSON,

XML,

ZIP files (iterates over contents)

图片

转化成jpeg

转化成jpeg

提取文字

提取文字,但Word和PPT里面的图片无法识别

表格

可准确识别

可准确识别

识别效果一般

识别效果一般

公式

可准确识别

可准确识别

效果差

效果差

耗时(转换12页PDF论文)

630.83 s

1262.62 s

0.19 s

4.35 s

         

2 输出内容

2.1 Marker

注意事项:支持PDF、EPUB 和 MOBI 格式文件文档输入

处理单个文本脚本指令:marker_single data/original/2020_paper.pdf --output_dir data/output

输出内容:jpeg格式的图片和转换后的Markdown格式文件

2.2 MinerU

2.2.1 magic-pdf

注意事项:仅支持PDF格式文档输入

处理单个文本脚本指令:magic-pdf -p data/2020_paper.pdf -o data/output/ -m auto

输出内容:jpeg格式的图片、转换后的Markdown格式文件、json文件、其他标记文件

2.2.2 magic-doc

注意事项:需要安装Libre​Office,支持PPT、PPTX、DOC、DOCX、PDF格式输入

处理单个文本脚本指令:

from magic_doc.docconv import DocConverter, S3Config

converter = DocConverter(s3_config=None)

markdown_content, time_cost = converter.convert("../data/2018_word.docx", conv_timeout=300)

with open("docs/tmp/output.md", 'w', encoding='utf-8') as file:

file.write(markdown_content)

file.close()

输入文件:18页DOCX格式文件,16页PPTX格式文件

输出内容:输出Markdown文件内容,只保留了文字

2.3 Markitdown

注意事项:支持PDF,PowerPoint,Word,Excel,Images (EXIF metadata and OCR),Audio (EXIF metadata and speech transcription),HTML,Text-based formats (CSV, JSON, XML),ZIP files (iterates over contents)格式的输入

处理单个文本脚本指令:markitdown data/2020_paper.pdf > data/output/output.md

输出内容:输出Markdown文件内容,只保留了文字

3 实验分析

3.1 运行环境

OS:Windows 10

CPU:Intel(R)Core(TM)i7-10510U CPU @ 1.80GHz 2.30 GHZ

RAM:20.0 GB (19.7 GB 可用)

3.2 Marker

输入文件:12页PDF英文论文

共耗时630.83038854599 s

3.3 MinerU

3.3.1 magic-pdf

输入文件:12页PDF英文论文

共耗时1262.62 s

3.3.2 magic-doc

输入文件:12页PDF英文论文

共耗时0.186 s,只保留了文字,图片只提取了图题、横纵坐标,公式会乱码

3.4 Markitdown

3.4.1 PDF

输入文件:12页PDF英文论文

共耗时4.356520414352417 s,只保留了文字,图片只提取了图题、横纵坐标,公式会乱码

3.4.2 Word

输入文件:17页6624字包含中英文的DOCX格式文档

共耗时0.3815743923187256 s,只保留了文字,图片输出为:![](data:image/png;base64...),公式没有乱码,可以转换表格

3.4.3 PPT

输入文件:16页PPTX格式的演示文档

共耗时0.1609792709350586 s,只保留了文字,图片输出为:![Picture 3](Picture3.jpg)、![图片 18](图片18.jpg),公式没有乱码,可以转换表格

3.4.4 Excel

输入文件:148行 * 14列xlsx格式的Excel表格

共耗时1.6716892719268799 s

4 参考资料

Marker:https://github.com/VikParuchuri/marker

MinerU magic-pdf:https://github.com/opendatalab/MinerU/tree/master

magic-doc:https://github.com/opendatalab/magic-doc

markitdown: https://github.com/microsoft/markitdown

posted @   Jcpeng_std  阅读(1360)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示