会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
NewJune
博客园
首页
新随笔
联系
订阅
管理
2019年12月6日
利用python第三方库提取PDF文件的表格内容
摘要: 小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据。接到这个任务的第一时间,小爬决定先搜集各个地区各个时间段的电子发票文件,看看其中的差异点。粗略统计下来,PDF文件的表格框架是统一的,但是数据部分则有较大差异: . 小爬首先想到的是借助工具提取发票的文本内容,然后用re正则表达式
阅读全文
posted @ 2019-12-06 15:22 NewJune
阅读(8580)
评论(1)
推荐(2)
编辑
公告