摘要: 一、selenium模块和爬虫之间具有怎样的关联 便捷的获取网站中动态加载的数据 便捷实现模拟登录 二、什么是selenium模块 基于浏览器自动化的一个模块 三、selenium使用流程 1、环境安装:pip install selenium -i https://mirrors.aliyun.c 阅读全文
posted @ 2020-05-26 17:28 南啾 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 一、目的:在爬虫中使用异步实现高性能的数据爬取操作 二、异步爬虫的方式: 1、多线程、多进程(不建议) 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行 弊端:无法无限制的开启多线程或者多进程 2、线程池、进程池(适当使用) 好处:我们可以降低系统对进程或者线程创建和销毁的一个 阅读全文
posted @ 2020-05-26 14:26 南啾 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 代理:破解封IP这种反爬机制 什么是代理: 即代理服务器 代理的作用: 突破自身IP访问的限制 可以隐藏自身真实IP 代理相关的网站: 快代理 西祠代理 www.goubanjia.com 代理的类型 http:应用于http协议对应的url中 https:应用到https协议对应的url中 代理i 阅读全文
posted @ 2020-05-26 10:53 南啾 阅读(212) 评论(0) 推荐(0) 编辑