摘要: 小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据。接到这个任务的第一时间,小爬决定先搜集各个地区各个时间段的电子发票文件,看看其中的差异点。粗略统计下来,PDF文件的表格框架是统一的,但是数据部分则有较大差异: . 小爬首先想到的是借助工具提取发票的文本内容,然后用re正则表达式 阅读全文
posted @ 2019-12-06 15:22 NewJune 阅读(8468) 评论(1) 推荐(2) 编辑