Fork me on GitHub

03 2019 档案

摘要:提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。 本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。 阅读全文
posted @ 2019-03-27 22:21 云外孤鸟 阅读(4004) 评论(0) 推荐(2) 编辑
摘要:壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物。然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁纸要么分辨率低,要么带有水印。 这里有一款Mac下的小清新壁纸神器[Pap.er][3],可能是Mac下最好的壁纸软件,**自带5K超清分辨率壁纸**,富有多种类型壁纸,当我们想在Windows或者Linux下使用的时候,就可以考虑将**5K超清分辨率壁纸**爬取下来。 阅读全文
posted @ 2019-03-16 13:45 云外孤鸟 阅读(2220) 评论(0) 推荐(0) 编辑
摘要:有时候,你很想关心她,但是你太忙了,以至于她一直抱怨,觉得你不够关心她。你暗自下决心,下次一定要准时发消息给她,哪怕是几句话,可是你又忘记了。你觉得自己很委屈😭,但是她又觉得你不负责。 **现在,再不用担心了**,用python就可以给女友定时发提示消息了,**而且不会漏过每一个关键时刻**,每天**早上起床、中午吃饭、晚上吃饭、晚上睡觉**,都会准时发消息给她了,而且还可以让她**学习英语单词**哦! 在生日来临之时,自动发祝福语。在节日来临之时,比如**三八妇女节、女神节、情人节、春节、圣诞节**,自动发问候语哦,再也不用担心他说你没有仪式感了😀 **现在,再不用担心了**,用python就可以给女友定时发提示消息了,**而且不会漏过每一个关键时刻**,每天**早上起床、中午吃饭、晚上吃饭、晚上睡觉**,都会准时发消息给她了,而且还可以让她**学习英语单词**哦!等你了解了全部这100行代码,你可以加上每个节日自动发问候语哦,比如**三八妇女节、女神节、情人节、春节、圣诞节**,再也不用担心他说你没有仪式感了!😀 阅读全文
posted @ 2019-03-15 02:16 云外孤鸟 阅读(14006) 评论(58) 推荐(21) 编辑
摘要:简介 上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文。 源代码 使用教程 1. [点击这里下载][1]下载chrome浏览器 2. 查看chrome浏览器的版本号,[点击这里下载][2]对应版本号的chr 阅读全文
posted @ 2019-03-14 16:14 云外孤鸟 阅读(3208) 评论(3) 推荐(2) 编辑
摘要:现在爬取淘宝,天猫商品数据都是需要首先进行登录的。上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝。把关键点放在如何爬取天猫商品数据上。 过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级,采取该策略比较难实现了。因为你使用get/post方式进行爬取数据,会提示需要登录,而登录又是一大难题,需要滑动验证码验证。当你想使用IP代理池进行跳过检验时,发现登录时需要手机短信验证码验证,由此可以知道旧的全自动爬取数据对于大型网站比较困难了(小型网站可以使用get/post,没检测或者检测系数较低)。 selenium是一款优秀的WEB自动化测试工具,所以现在采用selenium进行半自动化爬取数据。 阅读全文
posted @ 2019-03-13 17:28 云外孤鸟 阅读(4147) 评论(4) 推荐(0) 编辑
摘要:模拟登录淘宝已经不是一件新鲜的事情了,过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级,采取该策略比较难实现了。因为你使用get/post方式进行爬取数据,会提示需要登录,而登录又是一大难题,需要滑动验证码验证。当你想使用IP代理池进行跳过检验时,发现登录时需要手机短信验证码验证,由此可以知道旧的全自动爬取数据对于大型网站比较困难了。 阅读全文
posted @ 2019-03-13 16:49 云外孤鸟 阅读(13789) 评论(5) 推荐(2) 编辑

点击右上角即可分享
微信分享提示