爬虫

作为Python的初学者,爬虫肯定是入门的不二选择,既能熟悉语法,又能通过爬虫了解一定的网络编程知识。

标网站:www.mmjpg.com

如果你现在已经打开了这个网站,求求你们,把持住自己!!!

在这里还是要推荐下我自己建的Python开发学习群:628979297,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴

爬虫的原理

现在,让我们踩下油门,开始飙车!!!

既然我们要基于面向对象的思想写这个爬虫,那么我们就需要把这个爬虫写成一个类。

首先我们先来抓取所有妹子的url

在get_page_urls()中我们首先判断输入的页码(这里我们就不做输入负数的判断了),在获取到page_num后拼接出所有要爬取的页面url

打开首页,调出开发者工具

注意力不要放在妹子上!!!

我们定位到妹子的url,我们可以很容易的写出妹子url的xpath。

调出开发者工具(注意力不要放在妹子上!!!)

两种解决办法:

下面我们使用Selenium来模拟点击“全部图片”的按钮,来获取所有图片的url了。

这时我们调出开发者工具,我们就看到了所有图片的url了。

现在我们就可以获得每张图片的url了,顺便获取一下妹子的标题。

下载图片的方法

全部代码

小礼物走一



作者:python达人
链接:https://www.jianshu.com/p/be655039d6dd
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
posted @ 2018-04-22 21:22  凡_仁  阅读(114)  评论(0编辑  收藏  举报