随笔分类 - 爬虫
摘要:框架:具有很强的通用性,且封装了一些通用实现方法的项目模板 (异步框架): 高性能的网络请求 高性能的数据解析 高性能的持久化存储 高性能的全站数据爬取 高性能的深度爬取 高性能的分布式 Scrapy环境安装 IOS和Linux windows 安装完成后,输入 测试一下,出现如下图显示,即安装成功
阅读全文
摘要:移动端数据捕获 第三方抓包工具 (window) (mac) 抓包工具就是代理服务器 拦截和转发请求&响应 的基本使用 安装 默认安装好的 只可以捕获到HTTP协议的请求 配置 进行 证书的本机安装 tools→options→HTTPS→Decrypt HTTPS traffic→Check fo
阅读全文
摘要:selenium基本操作 概念:基于浏览器自动化的模块 :基于手机自动化的模块的应用 环境的安装 跟爬虫之间的关联? 可以实现模拟登陆 便捷的捕获动态加载数据(可见即可得) 基本操作 导包: (web浏览器,driver驱动) 必须提供对应浏览器的驱动程序(谷歌,火狐...) "谷歌浏览器驱动下载地
阅读全文
摘要:线程池 导包: 回调函数异步将可迭代对象中的元素进行某种操作 注意事项:callback必须有一个参数,且只能有一个参数 异步主要是被应用在耗时的操作 测试:同步&异步效率 搭建一个flask,自己启动服务,测试执行时间 新建一个 新建一个 文件夹,在该文件夹下创建一个HTML文件,我写的是 ,随便
阅读全文
摘要:代理(反爬机制) 短时间向一个服务器发起高频请求,会被认定为异常请求,将当前IP列入黑名单 概念:在爬虫中指的就是代理服务器 代理服务器的作用: 拦截请求和响应,进行转发 代理和爬虫之间的关联? 如果pc端IP被禁掉后,我们就可以使用代理机制更换请求的IP 如何获取相关的代理服务器 快代理:http
阅读全文
摘要:数据解析简介 数据解析:解析或提取数据,从通用爬虫获取的整张页面中,取得指定的局部数据 作用:实现聚焦爬虫 实现方式: (相比来说麻烦一些) (python中独有的) (java,php,python均可使用) (python独有) 数据解析的通用原理是什么? 解析的一定是html页面的源码数据 解
阅读全文
摘要:什么是爬虫? 通过编写代码,模拟浏览器发送请求,让其去网络上抓去数据的过程。 爬虫分类? 通用爬虫 抓取整张网页的全部内容 聚焦爬虫 抓取一张页面的部分内容 通用爬虫和聚焦爬虫的关联: 聚焦是建立在通用爬虫的基础上 增量式爬虫 监测网站数据的更新情况,以便将最新的数据进行爬取。 reqeusts简介
阅读全文