摘要: selenium模块 能够帮你自动操作浏览器 selenium最初是一个自动化测试工具 而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作, 比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持 阅读全文
posted @ 2020-09-19 03:07 最冷不过冬夜 阅读(232) 评论(0) 推荐(1) 编辑
摘要: IP代理池的概念及使用 1.有很多网站在防爬措施上面都加了封禁IP的措施 一旦我的网站发现某一个IP在固定的时间内访问了很多次(一分钟访问了30次),那么我会直接获取到该请求对应的主机IP地址,然后加入网站的黑名单 刚请求来访问我的网站的时候我会先去黑名单中查看当前请求的ip在不在如果在直接拒绝 如 阅读全文
posted @ 2020-09-19 02:50 最冷不过冬夜 阅读(316) 评论(0) 推荐(0) 编辑
摘要: requests模块 requests模块 能够模拟浏览器发送请求 比urllib模块更加的方便 该模块不是自带的模块需要提前下载 pip3 install requests # 如果你下载的模块想指定版本 需要在模块名的后面加两个等号 # pip3 install django==1.11.11 阅读全文
posted @ 2020-09-19 02:20 最冷不过冬夜 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 爬虫简介 我们一般情况 都是通过浏览器正常访问服务端获取资源浏览器展示给用户看 爬虫 模拟浏览器发送请求 获取网页源数据 内部自动解析处理(目标数据) 存放于数据库中 不夸张的概括一下 互联网就像是蜘蛛网,而爬虫就像是网上的蜘蛛 理论情况下只要给我们一个落脚点,我们就可以顺着互联网将互联网上面的所有 阅读全文
posted @ 2020-09-19 01:43 最冷不过冬夜 阅读(146) 评论(0) 推荐(0) 编辑