03 2019 档案
摘要:提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。
本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。
阅读全文
摘要:壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物。然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁纸要么分辨率低,要么带有水印。
这里有一款Mac下的小清新壁纸神器[Pap.er][3],可能是Mac下最好的壁纸软件,**自带5K超清分辨率壁纸**,富有多种类型壁纸,当我们想在Windows或者Linux下使用的时候,就可以考虑将**5K超清分辨率壁纸**爬取下来。
阅读全文
摘要:有时候,你很想关心她,但是你太忙了,以至于她一直抱怨,觉得你不够关心她。你暗自下决心,下次一定要准时发消息给她,哪怕是几句话,可是你又忘记了。你觉得自己很委屈😭,但是她又觉得你不负责。
**现在,再不用担心了**,用python就可以给女友定时发提示消息了,**而且不会漏过每一个关键时刻**,每天**早上起床、中午吃饭、晚上吃饭、晚上睡觉**,都会准时发消息给她了,而且还可以让她**学习英语单词**哦!
在生日来临之时,自动发祝福语。在节日来临之时,比如**三八妇女节、女神节、情人节、春节、圣诞节**,自动发问候语哦,再也不用担心他说你没有仪式感了😀
**现在,再不用担心了**,用python就可以给女友定时发提示消息了,**而且不会漏过每一个关键时刻**,每天**早上起床、中午吃饭、晚上吃饭、晚上睡觉**,都会准时发消息给她了,而且还可以让她**学习英语单词**哦!等你了解了全部这100行代码,你可以加上每个节日自动发问候语哦,比如**三八妇女节、女神节、情人节、春节、圣诞节**,再也不用担心他说你没有仪式感了!😀
阅读全文
摘要:简介 上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文。 源代码 使用教程 1. [点击这里下载][1]下载chrome浏览器 2. 查看chrome浏览器的版本号,[点击这里下载][2]对应版本号的chr
阅读全文
摘要:现在爬取淘宝,天猫商品数据都是需要首先进行登录的。上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝。把关键点放在如何爬取天猫商品数据上。
过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级,采取该策略比较难实现了。因为你使用get/post方式进行爬取数据,会提示需要登录,而登录又是一大难题,需要滑动验证码验证。当你想使用IP代理池进行跳过检验时,发现登录时需要手机短信验证码验证,由此可以知道旧的全自动爬取数据对于大型网站比较困难了(小型网站可以使用get/post,没检测或者检测系数较低)。
selenium是一款优秀的WEB自动化测试工具,所以现在采用selenium进行半自动化爬取数据。
阅读全文
摘要:模拟登录淘宝已经不是一件新鲜的事情了,过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级,采取该策略比较难实现了。因为你使用get/post方式进行爬取数据,会提示需要登录,而登录又是一大难题,需要滑动验证码验证。当你想使用IP代理池进行跳过检验时,发现登录时需要手机短信验证码验证,由此可以知道旧的全自动爬取数据对于大型网站比较困难了。
阅读全文