随笔分类 - python爬虫
摘要:1.爬虫和关系数据库的交互次数能减少就减少。 之前由于爬虫出了bug,导致错误日志持续膨胀耗尽服务器空间,导致MySQL数据库无法添加数据,于是乎想把爬虫中间过程的所有数据(图片url等待队列)放进数据库。爬虫的爬取速度明显下降,并且数据库操作过程出错(经常发生事务锁定时间过长强退这种情况)。之前也
阅读全文
摘要:零、用什么工具爬取网站 之前的两个游戏谜面,都是眼看,手动输入的,这给解谜带来了一些不方便。尤其是那种special daily battle之类的,谜面都很大,一个个写很费时。有没有什么方法能快速拿到谜面,并且把谜面直接输出到文件里?答案是爬虫,网页抓取。 只是puzzle team club的网
阅读全文
摘要:做爬虫,当然就要用数据。想拿数据进行分析,首先清洗数据。这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的。 从各大不同新闻网站可以爬到重复新闻。。。这个可以有。之前为了对爬到的新闻信息进行深度挖掘去了这个网站http://blog.reetsee.com/archives/2
阅读全文
摘要:新浪微博的消息还是很多的,值得弄个账号去爬。不过都有账号了,还需要特意再搞一个吗? 直接上去跟踪。分别使用www和wap端登录: wap端相对简单,form表单都没有用到前面传的数据。但是我看到表单时,差点TM把水喷出来了 (password为了防止泄密已涂,还有上面的属性也是空字符串不用看了)不止
阅读全文
摘要:经过上一次的实战,手感有了,普罗西(雾)池也有了,再战taobao/tmall 试着使用phantomJS爬手机端,结果发现爬来的tmall页面全是乱码,taobao页面xpath识别错误。一顿分析了之后才发现:TMD我的python2会把编码搞乱,phantomJS不支持手机独有的tap()操作!
阅读全文
摘要:淘宝那次抓包,居然发现不了要抓的url位置,三星中。。。 不过不怕,不就是没法快点分析出包嘛,下次用phantomJS硬杠,或者有时间慢慢分析也好。 今天挑战一个稍微好爬的网站:狗搬家(误) 打开后台代码一看,山口山 一堆<p style="display:none;">直接影响分析数据。 有个运用
阅读全文
摘要:没事想爬下数据,就入了scrapy坑,跟着https://zhuanlan.zhihu.com/data-factory这篇教程走,中间被小数量的网站坑过,不过还是写出了爬虫~~ 切糕王子:毫无防御,直接scan就可以了; 尚妆网:进这个网站时才发现,这和说好的不一样!!!这个网站也是采用了拖动到底
阅读全文