03 2018 档案
requests+多进程poll+pymongo实现抓取小说
摘要:今天看着有个很吸引人的小说作品信息:一家只在深夜开门营业的书屋,欢迎您的光临。作为东野奎吾《深夜食堂》漫画的fans,看到这个标题按捺不住我的好奇心........ 所以我又抓下来了,总共52章,下面有源码,写的有点乱哦,凑合看看,关键看结果,@~@。。。。 代码写完,几秒钟就抓取下来,比下载效率高
阅读全文
使用多线程生产者消费者模式实现抓斗图
摘要:# 没个图都不好意思玩微信 @.@# 需求:想要多点搞笑图为了微信斗斗图# 抓取时注意:1.实现生产者消费者模式 2.抓取url不重复 3.解析url也不能重复# 多线程抓取多个url 代码运行环境python3,图片抓取有些粗糙,png格式的没有做区分,都保存为jpg格式的,大体思路大家可以参考下
阅读全文
selenium+chrome抓取淘宝搜索抓娃娃关键页面
摘要:最近迷上了抓娃娃,去富国海底世界抓了不少,完全停不下来,还下各种抓娃娃的软件,梦想着有一天买个抓娃娃的机器存家里~.~ 今天顺便抓了下马爸爸家抓娃娃机器的信息,晚辈只是觉得翻得手酸,本来100页的数据,就抓了56条,还希望马爸爸莫怪。。。。 有对爬虫的感兴趣的媛友,可以作为参考哦! 要是环境配置好了
阅读全文