12 2019 档案

摘要:我们日常工作中,单纯的HTTP请求,程序员都倾向于使用万能的python Requests库。但大多数场景下,我们的需求页面不是纯静态网页,网页加载过程中伴随有大量的JS文件参与页面的整个渲染过程,且页面的每一步操作可能都能找到异步加载XHR的影子。所以Requests库不是万能的,Requests 阅读全文
posted @ 2019-12-25 11:52 NewJune 阅读(2824) 评论(0) 推荐(0) 编辑
摘要:小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据。接到这个任务的第一时间,小爬决定先搜集各个地区各个时间段的电子发票文件,看看其中的差异点。粗略统计下来,PDF文件的表格框架是统一的,但是数据部分则有较大差异: . 小爬首先想到的是借助工具提取发票的文本内容,然后用re正则表达式 阅读全文
posted @ 2019-12-06 15:22 NewJune 阅读(8653) 评论(1) 推荐(2) 编辑
摘要:pyinstaller是python下目前能打包py文件为windows下的exe文件的一个非常友好易用的库!但是,小爬每次用pyinstaller打包时也总是遇到一些难题,有时网上搜了一圈,也没看到合适的答案。小爬因此决定把我的问题和后来的解决思路都写出来,供后来者参考! 事情是这样的,小爬最近编 阅读全文
posted @ 2019-12-01 22:13 NewJune 阅读(23427) 评论(5) 推荐(0) 编辑

点击右上角即可分享
微信分享提示