python爬虫 - 随笔分类 - DGUT_FLY

论Python爬虫与MySQL数据库交互的坑

摘要：1.爬虫和关系数据库的交互次数能减少就减少。之前由于爬虫出了bug，导致错误日志持续膨胀耗尽服务器空间，导致MySQL数据库无法添加数据，于是乎想把爬虫中间过程的所有数据(图片url等待队列)放进数据库。爬虫的爬取速度明显下降，并且数据库操作过程出错(经常发生事务锁定时间过长强退这种情况)。之前也阅读全文

posted @ 2020-05-23 12:08 DGUT_FLY 阅读(627) 评论(0) 推荐(0)

使用Chrome无头浏览器获取puzzle team club解谜游戏的谜面

摘要：零、用什么工具爬取网站之前的两个游戏谜面，都是眼看，手动输入的，这给解谜带来了一些不方便。尤其是那种special daily battle之类的，谜面都很大，一个个写很费时。有没有什么方法能快速拿到谜面，并且把谜面直接输出到文件里？答案是爬虫，网页抓取。只是puzzle team club的网阅读全文

posted @ 2019-12-03 20:43 DGUT_FLY 阅读(498) 评论(0) 推荐(0)

python爬虫——对爬到的数据进行清洗的一些姿势（5）

摘要：做爬虫，当然就要用数据。想拿数据进行分析，首先清洗数据。这个清洗数据包括清除无用数据列和维度，删除相同数据，对数据进行勘误之类的。从各大不同新闻网站可以爬到重复新闻。。。这个可以有。之前为了对爬到的新闻信息进行深度挖掘去了这个网站http://blog.reetsee.com/archives/2 阅读全文

posted @ 2017-07-31 18:39 DGUT_FLY 阅读(4192) 评论(0) 推荐(0)

python爬虫——跟踪登录过程以及意外的发现（4）

摘要：新浪微博的消息还是很多的，值得弄个账号去爬。不过都有账号了，还需要特意再搞一个吗？直接上去跟踪。分别使用www和wap端登录： wap端相对简单，form表单都没有用到前面传的数据。但是我看到表单时，差点TM把水喷出来了（password为了防止泄密已涂，还有上面的属性也是空字符串不用看了）不止阅读全文

posted @ 2017-07-28 18:43 DGUT_FLY 阅读(250) 评论(0) 推荐(0)

python爬虫——与不断变化的页面死磕和更新换代（3）

摘要：经过上一次的实战，手感有了，普罗西（雾）池也有了，再战taobao/tmall 试着使用phantomJS爬手机端，结果发现爬来的tmall页面全是乱码，taobao页面xpath识别错误。一顿分析了之后才发现：TMD我的python2会把编码搞乱，phantomJS不支持手机独有的tap()操作！阅读全文

posted @ 2017-07-21 18:48 DGUT_FLY 阅读(504) 评论(0) 推荐(0)

python爬虫——绕开杂乱无章的代码和堵住请求的302异常（2）

摘要：淘宝那次抓包，居然发现不了要抓的url位置，三星中。。。不过不怕，不就是没法快点分析出包嘛，下次用phantomJS硬杠，或者有时间慢慢分析也好。今天挑战一个稍微好爬的网站：狗搬家（误）打开后台代码一看，山口山一堆<p style="display:none;">直接影响分析数据。有个运用阅读全文

posted @ 2017-07-19 18:26 DGUT_FLY 阅读(1849) 评论(0) 推荐(0)

python爬虫——论抓包的正确姿势和学好Javascript的重要性（1）

摘要：没事想爬下数据，就入了scrapy坑，跟着https://zhuanlan.zhihu.com/data-factory这篇教程走，中间被小数量的网站坑过，不过还是写出了爬虫~~ 切糕王子：毫无防御，直接scan就可以了；尚妆网：进这个网站时才发现，这和说好的不一样！！！这个网站也是采用了拖动到底阅读全文

posted @ 2017-07-18 19:03 DGUT_FLY 阅读(4547) 评论(0) 推荐(0)

随笔分类 - python爬虫

公告