07 2017 档案
摘要:爬虫,新手很容易遇到编码解码方面的问题。在这里总结下。 如果处理不好编码解码的问题,爬虫轻则显示乱码,重则报错UnicodeDecodeError: 'xxxxxx' codec can't decode byte 0xc6 in position 1034: invalid continuatio
阅读全文
摘要:先做个小示例,不用废话谈理论,没有实践的空谈都是扯蛋误导人。 这篇文章不讨论线程 协程的理论。只讨论标题的主题问题,爬虫速度。 # coding=utf-8 import requests,time count=0 urlx= 'http://www.xxsy.net/' # 'http://www
阅读全文
摘要:保持和py的Threadpoolexecutor一样的submit 方法名,是程序更容易在两种模式之间切换。
阅读全文
摘要:做这个主要是程序可以做到直接调用一个脚本,而不是从脚本中把类或者函数import出来这样调用,比如我们写的python命令行文件,让java来调用,让c++来调用,都是可以的。这样不需要整个语言都用py,否则什么都自己做加大了工作量。 做这个需要两点内容就行,一个是写一个接受命令行参数的脚本。 另外
阅读全文
摘要:做风险控制和个人征信,需要做数据挖掘,第一步就是要爬到消费记录,当然还有很多其他项包括收货地址 宝贝收藏 快速退款额度 芝麻信用 绑定的手机等等,先要爬到数据才能分析。 淘宝直接请求登录接口不可行,不知道post参数加密规则,(大公司安全就是做得好),用selenium操作浏览器来登录得到drive
阅读全文
摘要:今天发现世纪佳缘的以前登录代码不行了,登录不成功。打印content后有毛病,没跳转过去。 需要再次请求一下登录后返回的<script type='text/javascript'>window.location.replace()中的url。 登录代码改成如下,就是需要多点击一次。 之后再用这个s
阅读全文