2018 年 1月 24 日随笔档案 - Kayden_Cheung

2018年1月24日

摘要：这次练习爬传送门这贴吧里的美食图片。如果通过img标签和class属性的话，用BeautifulSoup能很简单的解决，但是这次用一下正则表达式，我这也是参考了该博主的博文：传送门所有图片的src地址前面都是相同的，所以根据这个就可以筛选出我们想要的图片了。也就是在匹配时不用class属性的阅读全文

posted @ 2018-01-24 12:33 Kayden_Cheung 阅读(1175) 评论(0) 推荐(0) 编辑

python反爬虫解决方法——模拟浏览器上网

摘要：之前第一次练习爬虫的时候看网上的代码有些会设置headers，然后后面的东西我又看不懂，今天终于知道了原来这东西是用来模拟浏览器上网用的，因为有些网站会设置反爬虫机制，所以如果要获取内容的话，需要使用浏览器上网才可以。获取headers的方法很简单，首先打开审查元素界面，有个Network选项，点阅读全文

posted @ 2018-01-24 10:48 Kayden_Cheung 阅读(2709) 评论(0) 推荐(0) 编辑

python爬虫训练——爬poj题目

摘要：首先要解决的就是不同的题目在不同的页上，也就是要实现翻页功能，自动获取所要爬取的地址，通过分析可以得出不同的页面也就是volume=后面的数字不同所以我们可以用re模块来替换即可：得到所有URL后就很简单了，写个正则表达式来匹配即可。阅读全文

posted @ 2018-01-24 09:59 Kayden_Cheung 阅读(737) 评论(0) 推荐(0) 编辑

Kayden_Cheung's Blog

对未来的真正慷慨，是把一切献给现在。

公告