摘要: 这次练习爬 传送门 这贴吧里的美食图片。 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门 所有图片的src地址前面都是相同的,所以根据这个就可以筛选出我们想要的图片了。也就是在匹配时不用class属性的 阅读全文
posted @ 2018-01-24 12:33 Kayden_Cheung 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: 之前第一次练习爬虫的时候看网上的代码有些会设置headers,然后后面的东西我又看不懂,今天终于知道了原来这东西是用来模拟浏览器上网用的,因为有些网站会设置反爬虫机制,所以如果要获取内容的话,需要使用浏览器上网才可以。 获取headers的方法很简单,首先打开审查元素界面,有个Network选项,点 阅读全文
posted @ 2018-01-24 10:48 Kayden_Cheung 阅读(2709) 评论(0) 推荐(0) 编辑
摘要: 首先要解决的就是不同的题目在不同的页上,也就是要实现翻页功能,自动获取所要爬取的地址,通过分析可以得出不同的页面也就是volume=后面的数字不同 所以我们可以用re模块来替换即可: 得到所有URL后就很简单了,写个正则表达式来匹配即可。 阅读全文
posted @ 2018-01-24 09:59 Kayden_Cheung 阅读(737) 评论(0) 推荐(0) 编辑
//目录