用 Python 开发了一个 PDF 抽取Excel表格的小工具

大家好哇
从 PDF 里 copy 表格时,粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过里,我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用,我把它部到 huggingface 了,同学可以直接去感受一下:

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

使用方法

准备一个PDF(暂不支持扫描版)

1

页面中上传PDF,也不支持过大的200M以上的文件,如果太大,大家可以先去压缩一下,我记得adobe官网有就类似小工具。

3

上传完成后,选择表格所在PDF的页码,等待片刻就会出现“提起完成,点击下载”

4

下载Excel,格式还需要微调,不过比直接复制出来的要好很多了,能节省一些时间。

2

目前这个工具我还在完善,比如直接梭哈,抽取PDF中所有表格,敬请期待。

实现方法之后再公布吧,其实经常看我文章的同学应该都很熟悉了吧。
之前在腾讯的这个算法,我搬到了网上,随便玩!一文中有介绍

本文代码能在huggingface看到,其实也是刚刚调试好,觉得有用,期待三连。

posted @   机器学习算法与Python  阅读(102)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
点击右上角即可分享
微信分享提示