摘要:
python基础内容回顾 HTML+CSS 正则解析 bs4解析 xpath解析 urllib与requests 多进程 多线程 协程 抓取m3u8视频 selenium使用 MySQL数据库 MongoDB数据库 Redis数据库 面向对象基础 IP代理池 Scrapy框架 Scrapy-模拟登陆 阅读全文
摘要:
scrapy的crawlspider爬虫 学习目标: 了解 crawlspider的作用 应用 crawlspider爬虫创建的方法 应用 crawlspider中rules的使用 1、crawlspider是什么 回顾之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址 阅读全文
摘要:
Scrapy中间件 学习目标: 应用 scrapy中使用中间件使用随机UA的方法 了解 scrapy中使用代理ip的的方法 1、scrapy中间件的分类和作用 1.1 scrapy中间件的分类 根据scrapy运行流程中所在位置不同分为: 下载中间件 爬虫中间件 1.2 scrapy中间的作用 主要 阅读全文
摘要:
scrapy模拟登陆&分页 一、模拟登陆 学习目标: 应用 scrapy直接携带cookie模拟登陆的方法 应用 scrapy.FormRequest()发送post请求进行登陆 1、回顾之前的模拟登陆的方法 1.1 requests模块是如何实现模拟登陆的? 直接携带cookies请求页面 找ur 阅读全文
摘要:
Redis数据库 Redis 简介 Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。 Redis与其他 key- value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Redis不仅仅支 阅读全文
摘要:
MySQL数据库 一、MySQL数据库的介绍 1、发展史 1996年,MySQL 1.0 2008年1月16号 Sun公司收购MySQL。 2009年4月20,Oracle收购Sun公司。 MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),使用最常用的数据库管理语言--结构化查询语言( 阅读全文
摘要:
selenium 一、前期准备 1、概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取。 2、学习目标 掌握 selenium发送请求,加载网页的方法 掌握 sel 阅读全文