爬虫
作为Python的初学者,爬虫肯定是入门的不二选择,既能熟悉语法,又能通过爬虫了解一定的网络编程知识。
标网站:www.mmjpg.com
如果你现在已经打开了这个网站,求求你们,把持住自己!!!
在这里还是要推荐下我自己建的Python开发学习群:628979297,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴
爬虫的原理
现在,让我们踩下油门,开始飙车!!!
既然我们要基于面向对象的思想写这个爬虫,那么我们就需要把这个爬虫写成一个类。
首先我们先来抓取所有妹子的url
在get_page_urls()中我们首先判断输入的页码(这里我们就不做输入负数的判断了),在获取到page_num后拼接出所有要爬取的页面url
打开首页,调出开发者工具
注意力不要放在妹子上!!!
我们定位到妹子的url,我们可以很容易的写出妹子url的xpath。
调出开发者工具(注意力不要放在妹子上!!!)
两种解决办法:
下面我们使用Selenium来模拟点击“全部图片”的按钮,来获取所有图片的url了。
这时我们调出开发者工具,我们就看到了所有图片的url了。
现在我们就可以获得每张图片的url了,顺便获取一下妹子的标题。
下载图片的方法
全部代码
小礼物走一
作者:python达人
链接:https://www.jianshu.com/p/be655039d6dd
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。