W
e
l
c
o
m
e
: )
摘要: from selenium.webdriver.support import expected_conditions as EC 解析 expected_conditions是Selenium的一个模selenium.webdriver.support.expected_conditions,可以对 阅读全文
posted @ 2020-02-18 21:12 水一RAR 阅读(955) 评论(0) 推荐(0) 编辑
摘要: selenium中selenium.webdriver.common.by之By的用法 By是selenium中内置的一个class,在这个class中有各种方法来定位元素 By所支持的定位器的分类: 1. id属性定位 2. name属性定位 3. classname属性定位 4. a标签文本属性 阅读全文
posted @ 2020-02-18 21:06 水一RAR 阅读(4303) 评论(0) 推荐(3) 编辑
摘要: 多线程爬虫 1. 程序、进程和线程。 程序: 就相当于一个应用。 进程: 程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。 线程: cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。 线程的划分尺度比进程更小。 1. 为什么 多进程和多线程 可 阅读全文
posted @ 2020-02-18 20:18 水一RAR 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 1. 强制等待 第一种也是最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。 这种叫强制等待,不管你浏览器是否加载完了,程序都得等待3秒,3秒一到,继续执行下面的代码,作为调试很有用,有时候也可以在代码里这样等待 阅读全文
posted @ 2020-02-18 13:28 水一RAR 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫和反爬的斗争 反爬策略 1、反爬策略 1. 通过user agent客户端标识来判断是不是爬虫。 解决的办法:封装请求头:user agent 2. 封ip 设置代理ip 3. 通过访问频率来判断是否是非人类请求。 解决的办法:设置爬取间隔和爬取策略。 4. 验证码 解决办法:识别验证码 5 阅读全文
posted @ 2020-02-18 13:22 水一RAR 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 找到 你conda的安装目录下\Lib\site packages 下的两个文件夹 lxml 和 lxml 4.3.4.dist info ,将这两个文件夹 删除。 执行命令 重新安装 ,即可。 阅读全文
posted @ 2020-02-18 09:11 水一RAR 阅读(674) 评论(0) 推荐(0) 编辑
摘要: 爬虫数据存储为json格式 data为你的数据 案例: 声明:该案例 仅用于 学习,请勿商用,或非法用途,造成的一切后果于本人无关! 阅读全文
posted @ 2020-02-18 09:07 水一RAR 阅读(1058) 评论(0) 推荐(0) 编辑
摘要: 爬虫将爬取到的 信息 存储进excel表中 1.直接写入的方式 filename excel文件名, sheetname 就是你的 excel表格底下的 sheet ,wordlist 你的数据 2.往excel中追加 阅读全文
posted @ 2020-02-18 08:29 水一RAR 阅读(1768) 评论(0) 推荐(0) 编辑