随笔分类 - 爬虫技术
摘要:增量式爬虫: --概念:检测网站数据更新的情况,只会爬取网站最新更新出来的数据 --分析: --指定其实url --基于CrawlSpider获取其他页码链接 --基于Rule将其他页码链接进行请求 --从每一个页码对应的页面源码中解析出详情页的url --检测详情页url是否已经爬取过,爬过略过,
阅读全文
摘要:分布式爬虫 --实现方式:scrapy+redis(scrapy结合scrapy-redis组件) --原生的scrapy框架是无法实现分布式 --分布式: 搭建一个分布式的机群,让机群中的每一台电脑执行同一组程序对同一组资源进行联合且分布的爬取 --原生的scrapy框架 --调度器无法被分布式机
阅读全文
摘要:CrawlSpider: --是Spider的一个子类.Spider是爬虫文件中爬虫类的父类 --作用:被用于专业实现全站数据爬取,将一个页面上所有页码对应的数据进行爬取 --基本使用: --创建一个基于CrawlSpider的爬虫文件 --scrapy genspider -t crawl Spi
阅读全文
摘要:需求:爬取网易新闻中的新闻数据(标题和内容) 页面分析: --网页新闻页面板块名称非动态加载,解析板块名称和板块url --板块页面对应的页面是动态加载的,解析新闻标题和新闻详情页url --板块页面的新闻详情页里的内容非动态加载,解析新闻内容 解析分析: --板块名称为非动态加载,通过scrapy
阅读全文
摘要:“Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)”,“Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0)”,“Mozilla/
阅读全文
摘要:框架:集成了很多功能并且具有很强通用型的一个项目模板 如何学习框架: 学习框架封装功能的用法; 框架进阶:学习源码及编程思想 scrapy: 高性能持久化存储,异步的数据下载,高性能的数据分析,分布式 scrapy框架的基本使用: --环境安装: mac / linux :pip install s
阅读全文
摘要:12306模拟登录: --使用selenium打开登录页面 --对当前selenium打开的页面进行截图 --对当前图片局部区域进行裁剪 --因为如果获取图片url进行下载,相当于第二次请求图片,那么图片和打开的页面会不一致 --使用超级鹰识别验证码图片(坐标) 裁剪验证码图片并保存: # 需求:将
阅读全文
摘要:selenium模块与爬虫的关系: --方便便捷的获取网站中动态加载的数据 --便捷实现模拟登录 什么是selenium模块 --基于浏览器自动化的一个模块.python代码调用浏览器,浏览器根据代码完成自动化操作. selenium使用流程: --环境安装:pip install selenium
阅读全文
摘要:本案例为学习研究,不可做非法用途使用! 本案例使用的是普通的lxml,requests模块结合抓包工具做的抓取. 后续有selenium能够更好的满足需求 案例需求: 获取梨视频生活页面的热点视频数据,提取对应视频的真实下载地址. 页面分析: 直接打开开发者工具,查看页面源码,分析出页面get请求可
阅读全文
摘要:目的:在爬虫中使用异步实现高性能的数据爬取操作 # 单线程下的串行数据爬取 1.阻塞式的爬虫 2.依次,单线程,效率低 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple
阅读全文
摘要:模拟登录流程: 对点击登录按钮对应的请求进行发送(post请求) 处理请求参数: --用户名 --密码 --验证码 --其他的防伪参数 模拟登录cookie操作: 1.手动cookie处理 通过抓包工具获取cookie值,将该值封装到headers中 2.自动处理cookie 模拟登录post请求后
阅读全文
摘要:验证码与爬虫: 验证码是一种防爬机制 识别验证码的机制: 1.人工肉眼识别(不推荐) 2.第三方自动识别(推荐): 云打码(已挂) 超级鹰 打码兔 超级鹰示例:(各打码平台使用方法几乎一致) if __name__ == '__main__': # 调用类生成实例 chaojiying = Chao
阅读全文
摘要:数据解析基本认识 爬虫根据使用场景不同分为:通用爬虫,聚焦爬虫,增量式爬虫 聚焦爬虫:爬取页面中指定的页面内容 --编码流程 --指定URL --发起请求 --获取响应数据 --数据解析 --持久化存储 聚焦爬虫以通用爬虫为基础,进行数据的局部提取,提取的过程即为数据解析. 数据解析分类: --正则
阅读全文
摘要:requests模块:python中原生的一款基于网络请求的模块,功能强大,效率极高 作用:模拟浏览器发送请求 如何使用:(requests模块的编码流程) --指定url --发起请求 --获取响应数据 --持久化存储 环境安装: pip install requests 案例一:sougou页面
阅读全文
摘要:1.http&https协议(点我) 2.requests(点我) 3.数据解析(点我) 4.验证码识别(点我) 5.模拟登录及代理(点我) 6.异步爬虫(点我) 7.selenium(点我) 8.scrapy(点我) 9.分布式爬虫 10.增量式爬虫 案例1--爬虫案例:梨视频下载地址抓取(使用普
阅读全文