博客版权已保护:转载请注明出处,谢谢。

python网页分析

像是那种爬去图片的网站,一般在总的页面哪里就能拿到原图的链接,虽然你查看网页源码之后,可能看到的还是只有压缩后的图片地址,但是原图的地址其实会在压缩地址的后面给你,但是他一般不会直接给你,他会隐藏性的给出来,这就考究你的连接怕拼接还有观察能力了。
举例:
当你在网页源码当中只能找到这样的链接而已:

<img src="http://img.juli.com/file/2018/0821/bc511dadaa4f5d63deb38d.jpg" /></a><b><a href="/desk/20975.htm">
在这个链接当中,你打开http://img.dadadadadad.com/file/2018/0821/bc511dadaa4f5d63deb38d.jpg看到的会是一个缩略图,但是你点开/desk/20975.htm之后,你会发现他居然跳到了http://img.dadadadadad.com/desk/20975.htm  这个链接,而这个链接就是原图,那么你就成功的得到了原图的链接,接下来就差解决翻页的问题而已了。翻页问题一般可以通过观察网页结构获得,但是那些链接特别复杂的网页,你可以通过找网页源码的方式获得,一般都能找到,除非是那种设计很差的辣鸡网站。

posted on 2018-08-28 11:50  superhero11  阅读(495)  评论(0编辑  收藏  举报

导航