摘要: 百度图片网页中中,当页面滚动到底部,页面会加载新的内容。 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片。 1 from selenium import webdriver 2 from selenium.webdriver.common. 阅读全文
posted @ 2018-06-24 22:37 doitjust 阅读(1916) 评论(0) 推荐(0) 编辑
摘要: 使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘 拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的。 我们不去寻找它的API。这里使用另一种方式:使用PhantomJS模拟浏览,通过单击页面获取下一页。 这里 阅读全文
posted @ 2018-06-24 18:26 doitjust 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 有的时候爬取网页,可以利用网站额结构特点爬取网页 在百度搜索框中输入搜索内容,单击搜索,浏览器会发送一个带有参数的url请求。尝试删除其中的一些参数,只剩下wd这个参数。发现wd是搜索内容。这样程序可以根据不同的wd值,请求不同的网页。 1 from urllib import request,pa 阅读全文
posted @ 2018-06-24 15:59 doitjust 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 有的网页具有一些反爬机制,如:需要浏览器请求头中的User-Agent。User-Agent类似浏览器的身份证。 程序中不设置User-Agent。默认是Python-urllib/3.5。这样网站就知道是程序(而不是人)在访问,有的网站(如:西刺代理)就不会响应这样的请求。 程序中要设置浏览器请求 阅读全文
posted @ 2018-06-24 15:40 doitjust 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 简单的案例-爬取百度首页 1 from urllib import request 2 ''' 3 爬取百度首页 4 ''' 5 # 确定爬去目标 6 base_url = 'http://www.baidu.com' 7 8 # 发起http请求 返回一个类文件对象 9 response = re 阅读全文
posted @ 2018-06-24 14:48 doitjust 阅读(190) 评论(0) 推荐(0) 编辑