摘要: 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器, 完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。 环境安装 下载安装sele 阅读全文
posted @ 2020-06-30 19:18 Mrterrific 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 功能:爬取梨视频科技栏最热的几个视频。 1. 找到视频对应的通用标签 可以看出关于视频的信息都存放在li标签中 2. 拿到视频的名称以及对应的url 3.进入Video的url,找到视频信息的地址 你会发现没有这个视频的url,那么说明这个视频可能是动态加载出来的。 4. 打开抓包工具,找到视频对应 阅读全文
posted @ 2020-06-30 18:38 Mrterrific 阅读(246) 评论(1) 推荐(0) 编辑
摘要: 其实爬虫的本质就是client发请求批量获取server的响应数据,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的利 阅读全文
posted @ 2020-06-30 18:15 Mrterrific 阅读(219) 评论(0) 推荐(0) 编辑
摘要: requests的Cookie处理 有时相关的需求会让我们去爬取基于某些用户的相关用户信息,例如爬取张三人人网账户中的个人身份信息、好友账号信息等。 那么这个时候,我们就需要对当前用户进行登录操作,登录成功后爬取其用户的相关用户信息。 在浏览器中我们可以很便捷的进行用户登录操作,但是使用reques 阅读全文
posted @ 2020-06-30 17:42 Mrterrific 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一些网站中访问其中的数据需要登陆,并且需要输入验证码。 那么为什么要有验证码? 验证码就是一种防止机器识别的措施,也就是一种反爬机制。 那么我们应该如何破解这种反爬机制? 我们可以使用第三方平台,这里推荐使用图鉴http://www.ttshitu.com/price.html 我们需要做的是,注册 阅读全文
posted @ 2020-06-30 17:01 Mrterrific 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 功能:通过xpath爬取彼岸图网的高清美女壁纸 url = 'http://pic.netbian.com/4kmeinv/' 1. 通过url请求整张页面的数据 2.通过页面的标签定位图片所在的位置 3.找到所有图片的通用的标签 向图片标签的父级查找,可以发现每一张图片都在ul下的li标签下。 4 阅读全文
posted @ 2020-06-30 16:41 Mrterrific 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 引子 回顾requests模块实现数据爬取的流程 --指定url --发起请求 --获取响应数据 --持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值, 而不是整个页面的 阅读全文
posted @ 2020-06-30 16:24 Mrterrific 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 首先访问这个页面 url = 'http://125.35.6.84:81/xk/' 我们的目标是抓取这里的每一个企业的详情页数据,但是可以发现这里只有企业的简介信息,所以这就意味着我们要发送两次get请求。 在写代码之前,我们可以大概看一下我们想要的数据大概在什么位置。 1. 我们打开一个公司的详 阅读全文
posted @ 2020-06-30 15:44 Mrterrific 阅读(1615) 评论(0) 推荐(0) 编辑
摘要: 1.需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 (此处以抓取科幻电影分类的信息为例) import requests import json url = 'https://movie.douban.com/j/new_search_subject 阅读全文
posted @ 2020-06-30 15:08 Mrterrific 阅读(272) 评论(0) 推荐(0) 编辑
摘要: requests模块简介requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发请求。requests模块的编码流程 - 指定url - UA伪装 - 请求参数的处理 - 发起请求 - 获取响应数据 - 持久化存储 UA伪装User-Ag 阅读全文
posted @ 2020-06-30 14:35 Mrterrific 阅读(265) 评论(0) 推荐(0) 编辑