摘要:scrapy的crawlspider爬虫 学习目标: 了解 crawlspider的作用 应用 crawlspider爬虫创建的方法 应用 crawlspider中rules的使用 1 crawlspider是什么 回顾之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址
阅读全文
摘要:13.Gerapy 学习目标 了解 什么是Gerapy 掌握 Gerapy的安装 掌握 Gerapy配置启动 掌握 通过Gerapy配置管理scrapy项目 1.Gerapy介绍: Gerapy 是一款 分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapy
阅读全文
摘要:scrapy的日志信息与配置 学习目标: 了解 scrapy的日志信息 掌握 scrapy的常用配置 掌握 scrapy_redis配置 了解scrapy_splash配置 了解scrapy_redis和scrapy_splash配合使用的配置 1. 了解scrapy的日志信息 2. scrapy的
阅读全文
摘要:scrapy_splash组件的使用 学习目标 了解 scrapy_splash组件的作用 了解 scrapy_splash组件的使用 1. 什么是scrapy_splash? scrapy_splash是scrapy的一个组件 scrapy-splash加载js数据是基于Splash来实现的。 S
阅读全文
摘要:mongodb和python交互 学习目标 掌握 mongdb和python交互的增删改查的方法 掌握 权限认证的方式使用pymongo模块 1. mongdb和python交互的模块 pymongo 提供了mongdb和python交互的所有方法 安装方式: pip install pymongo
阅读全文
摘要:Mongodb的权限管理 学习目标 1.了解 mongodb的权限管理 1. 为什么要进行权限管理的设置 刚安装完毕的mongodb默认不使用权限认证方式启动,与MySQL不同,mongodb在安装的时候并没有设置权限,然而公网运行系统需要设置权限以保证数据安全,所以我们要学习mongodb的权限管
阅读全文
摘要:Mongodb的索引操作 学习目标 掌握 mongodb索引的创建,删除操作 掌握 mongodb查看索引的方法 掌握 mongodb创建唯一索引的方法 1. 为什么mongdb需要创建索引 加快查询速度 进行数据的去重 2. mongodb创建简单的索引方法 语法:db.集合名.ensureInd
阅读全文
摘要:JS的解析 学习目标: 了解 定位js的方法 了解 添加断点观察js的执行过程的方法 应用 js2py获取js的方法 1 确定js的位置 对于前面人人网的案例,我们知道了url地址中有部分参数,但是参数是如何生成的呢? 毫无疑问,参数肯定是js生成的,那么如何获取这些参数的规律呢?通过下面的学习来了
阅读全文
摘要:selenium的其它使用方法 知识点: 掌握 selenium控制标签页的切换 掌握 selenium控制iframe的切换 掌握 利用selenium获取cookie的方法 掌握 手动实现页面等待 掌握 selenium控制浏览器执行js代码的方法 掌握 selenium开启无界面模式 了解 s
阅读全文
摘要:selenium提取数据 知识点: 了解 driver对象的常用属性和方法 掌握 driver对象定位标签元素获取标签对象的方法 掌握 标签对象提取文本和属性值的方法 1. driver对象的常用属性和方法 在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方
阅读全文
摘要:selenium的介绍 知识点: 了解 selenium的工作原理 了解 selenium以及chromedriver的安装 掌握 标签对象click点击以及send_keys输入 1. selenium运行效果展示 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Se
阅读全文
摘要:http协议复习 知识点 掌握 http以及https的概念和默认端口 掌握 爬虫关注的请求头和响应头 了解 常见的响应状态码 理解 浏览器和爬虫爬取的区别 一提起http协议,大家都会想起它是一个应用层协议,那么http协议跟爬虫有什么关系呢?请看下图: 1. http以及https的概念和区别
阅读全文
摘要:爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟浏览器,发送请求,获取响应 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只
阅读全文
摘要:requests模块 知识点: 掌握 headers参数的使用 掌握 发送带参数的请求 掌握 headers中携带cookie 掌握 cookies参数的使用 掌握 cookieJar的转换方法 掌握 超时参数timeout的使用 掌握 代理ip参数proxies的使用 掌握 使用verify参数忽
阅读全文
摘要:数据提取-lxml模块 知识点 了解 lxml模块和xpath语法的关系 了解 lxml模块的使用场景 了解 lxml模块的安装 了解 谷歌浏览器xpath helper插件的安装和使用 掌握 xpath语法-基础节点选择语法 掌握 xpath语法-节点修饰语法 掌握 xpath语法-其他常用语法
阅读全文