摘要: PDF 导图一览: 工具名称功能技术输出格式特点 PyPDF 提取文本、图像和元数据 基于规则 (RB) TXT 成熟的纯 Python 库,处理多种 PDF 操作 pdfminer.six 提取文本、图像、目录、字体大小 基于规则 TXT、HTML、hOCR、JPG 多功能,支持 CJK 语言和垂 阅读全文