摘要: 1:请在“运行”,即下面这个地方输入certmgr.msc并回车,打开证书管理。 打开后,请点击操作--查找证书,如下所示: 然后输入“fiddler”查找所有相关证书,如下所示: 可以看到,我们找到一个,您可能会找到多个,不要紧,有多少个删多少个,全删之后,这一步完成 2:再接下来,打开火狐浏览器 阅读全文
posted @ 2019-01-10 22:12 洛丶丶丶 阅读(1080) 评论(0) 推荐(0) 编辑
摘要: selenium selenium是什么? 环境搭建 导包 使用 select下拉菜单选择 行为链 cookie操作 等待 1. 隐式等待 2. 显式等待 js代码执行和窗口切换 ip代理 注意:如果是Anaconda3的jupyter的情况,不能直接下载到本地的cpython解释器 要在Anaco 阅读全文
posted @ 2019-01-10 21:37 洛丶丶丶 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 图片懒加载 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的 阅读全文
posted @ 2019-01-10 17:58 洛丶丶丶 阅读(908) 评论(0) 推荐(0) 编辑
摘要: 代理 爬虫中为什么需要使用代理 代理的分类 免费代理ip提供网站 简单运用示例 不受信任的网站 例如有些网站的证书不被ca认证的 添加verify = False 就可以了。 乱码 1. 2. 其他编码可看这里 https://www.cnblogs.com/clbao/articles/11697 阅读全文
posted @ 2019-01-10 17:49 洛丶丶丶 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 一.正解解析 常用正则表达式回顾: 爬取糗百数据 二.xpath解析 xpath介绍 https://www.cnblogs.com/clbao/articles/10803582.html 1.本地文件 2.网络数据 测试页面数据 58二手房数据 阅读全文
posted @ 2019-01-10 16:48 洛丶丶丶 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 一.urllib库简介 简介 Urllib是Python内置的HTTP请求库。其主要作用就是可以通过代码模拟浏览器发送请求。它包含四个模块: 相比Python2与3变化: 其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib 阅读全文
posted @ 2019-01-10 16:31 洛丶丶丶 阅读(225) 评论(0) 推荐(0) 编辑
摘要: requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位 安装 requests库7个主要方法 方法说明 requsts.requst() 构造一个请求 阅读全文
posted @ 2019-01-10 15:47 洛丶丶丶 阅读(177) 评论(0) 推荐(0) 编辑
摘要: python网络爬虫的简单介绍 基础储备 # 友情提示 : # 了解下 http和https的概念 # python基础 python网络爬虫的简单介绍 基础储备 基础储备 # 友情提示 : # 了解下 http和https的概念 # python基础 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网 阅读全文
posted @ 2019-01-10 15:34 洛丶丶丶 阅读(229) 评论(0) 推荐(0) 编辑