上一页 1 ··· 3 4 5 6 7 8 9 下一页
摘要: 小爬从使用Pyinstaller打包py为exe文件以来,一直都会碰到Warning:lib not found等相关问题,诸如: 虽然大多数时候,您像我一样忽略这些warning,打包后的exe也能运行。网上有一堆的方法,有建议装win7的,也有建议换32位python文件的,有提示下载2G大小的 阅读全文
posted @ 2019-05-23 15:54 NewJune 阅读(8217) 评论(4) 推荐(1) 编辑
摘要: 最近小爬我为了提升数据分析这块儿的技能,学习了pandas库作者Wes Mckinney的数据分析经典书籍《利用Python进行数据分析》,受益良多!里面涉及到Python语言基础、还有编程利器Ipython、Jupyter notebook的使用小技巧,数组分析工具Numpy以及pandas的基础 阅读全文
posted @ 2019-05-21 15:35 NewJune 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 最近的部门RPA项目中,小爬为了提升爬虫性能,使用了Python中的多进程(multiprocessing)技术,里面需要用到进程锁Lock,用到进程池Pool,同时利用map方法一次构造多个process。Multiprocessing的使用确实能显著提升爬虫速度,不过程序交由用户使用时,缺乏一个 阅读全文
posted @ 2019-04-28 12:04 NewJune 阅读(23830) 评论(2) 推荐(0) 编辑
摘要: Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速、简单、可扩展的方式从网站提取所需的数据。 我们一开始上手爬虫的时候,接触的是urllib、requests抑或是Selenium这样的库,这些库都有非常好的易用性,上手很快,几行代码就能实现网 阅读全文
posted @ 2019-03-04 16:21 NewJune 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 背景介绍: 小爬我最近给部门开发了一系列OA的爬虫工具,从selenium前端模拟进化到纯requests后台post请求爬取,效率逐步提升。刚开始能维持在0.5秒/笔。可惜当数据超过2000笔后,爬取速度逐渐变慢,最终稳定在1-1.2秒/笔。(此处有较大的坑,原则上在万行数据这个量级上,速度不应该 阅读全文
posted @ 2019-01-30 21:12 NewJune 阅读(2791) 评论(0) 推荐(0) 编辑
摘要: 小爬最近随着对python中字符串、json等理解进一步加深,发现先前我随笔中提到的data构造和传参方法略复杂,原本有更简单的方法,Mark如下。 先前小爬我使用的requests.post请求中data构造的代码如下: 该方法主要通过json的dumps、loads方法来完成“字符串→字典列表→ 阅读全文
posted @ 2019-01-12 17:50 NewJune 阅读(1666) 评论(0) 推荐(0) 编辑
摘要: 最近,笔者在使用Requests模拟浏览器发送Post请求时,发现程序返回的html与浏览器F12观察到的略有不同,经过观察返回的response.text,cookies确认有效,因为我们可以看到返回的登陆信息。然而部分字段的值依然显示为空。 下图是浏览器F12抓包看到的界面: 由于笔者在查看第一 阅读全文
posted @ 2018-12-13 15:53 NewJune 阅读(698) 评论(0) 推荐(1) 编辑
摘要: 我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和post请求,他们最大的区别在于安全性上: 1、GET是通过URL方式请求,可以直接看到,明文传输。 2、POST是通过请求header请求,可以开发者工具或者抓包可以看到,同样也是明文的。 3.GET请求会保存 阅读全文
posted @ 2018-12-06 21:50 NewJune 阅读(39758) 评论(0) 推荐(1) 编辑
摘要: 前段时间,笔者忙于应付公司组织的雅思考试,白天、晚上但凡有空,笔者都是埋头伏案,啃剑桥雅思(剑4~剑12)的官方模拟题或者做着与雅思考试相关的准备工作,这个过程持续了40余天。最近总算鼓起勇气走进考场,跟那些尚未毕业、怀揣出国梦想的小年轻同场竞争,虽然结果还未出来,但是至少短时间不用再高强度复习英语 阅读全文
posted @ 2018-11-12 23:07 NewJune 阅读(4734) 评论(0) 推荐(1) 编辑
摘要: 众所周知,Python通常结合selenium模块来完成一些web的自动化测试以及RPA(Robotic Process Automation)工作。事实上,Selenium还可以支持插入js语句、执行js语句、返回js语句的执行结果到python程序中。这对于那些已经习惯了Javascript语法 阅读全文
posted @ 2018-09-17 22:29 NewJune 阅读(10558) 评论(0) 推荐(1) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 下一页