摘要: 现行的网络爬虫检测技术中,主要有以下两大类: 行为检测 指纹识别 (1)行为检测:通过分析网页上用户的操作(鼠标的移动、点击、滚动行为和浏览行为)来判断操作者是否是机器控制的网络爬虫。 (2)指纹识别:通过分析设备和浏览器的信息来判断访问者是否为网络爬虫。 每一台电脑、每一个操作系统、每一个浏览器, 阅读全文
posted @ 2021-04-02 11:46 Eliphaz 阅读(1770) 评论(0) 推荐(0) 编辑
摘要: fiddler 获取response中json内容,在fiddler scrpit中 OnBeforeResponse函数内加以下代码 //过滤无关请求,只关注特定请求 if (oSession.fullUrl.Contains("所需网站")) { oSession.utilDecodeRespo 阅读全文
posted @ 2021-03-30 20:50 Eliphaz 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 一、HTTP (1)定义 HTTP协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。 HTTP 是一种无状态 (stateless) 协议, HTTP协议本身不会对发送过的请求和相应的通 阅读全文
posted @ 2021-03-29 20:46 Eliphaz 阅读(102) 评论(0) 推荐(0) 编辑
摘要: driver.get(url) iframe = driver.find_elements_by_tag_name('iframe')[0] driver.switch_to.frame(iframe) 阅读全文
posted @ 2021-01-12 17:50 Eliphaz 阅读(1603) 评论(0) 推荐(0) 编辑
摘要: 一、redis指令 (1)查看版本号:redis-server -v (2)启动服务:redis-server (3)连接:redis-cli 二、redis-list(单值多value) 列表是简单的字符串列表,安卓插入顺序排序,可以添加一个元素列表的头部(左边)或者尾部(右边),底层实际是个链表 阅读全文
posted @ 2020-12-28 15:27 Eliphaz 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 解决办法: 方法一:js注入 element = driver.find_element_by_css('div[class*="loadingWhiteBox"]') driver.execute_script("arguments[0].click();", element) 方法二:Actio 阅读全文
posted @ 2020-12-25 11:00 Eliphaz 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 以企查查的翻页为例,如果你只是根据xpath来用selenium定位操作的话,你会发现xpath有很多种,并且部分还会出现并非是下一页的xpath。此时有一种方法可以解决,那就是通过正则和切割来解决。 首先正则匹配出页数标签有多少,然后切割判断下一页标签索引是多少,再组合出对应的xpath pate 阅读全文
posted @ 2020-12-15 21:56 Eliphaz 阅读(1068) 评论(0) 推荐(0) 编辑
摘要: 一、常用指令 (1)创建新项目:scrapy startproject spider_name (2)检查项目:scrapy check spiders.py (3)启动项目:scrapy crawl spiders.py (4)查看当前项目内有多少爬虫:scrapy list (5)在当前项目中创 阅读全文
posted @ 2020-12-11 10:32 Eliphaz 阅读(97) 评论(0) 推荐(0) 编辑
摘要: element = WebDriverWait(driver, 20).until( EC.presence_of_element_located((By.XPATH, xpath)))driver.execute_script("arguments[0].click();", element) 阅读全文
posted @ 2020-11-27 15:08 Eliphaz 阅读(1575) 评论(0) 推荐(0) 编辑
摘要: 1. 安装tesseract tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载完成后双击,此时会出现如下图所示的页面。 此时可以勾选Additional language data(download)选项来安装OCR识别支持的语 阅读全文
posted @ 2020-11-24 15:32 Eliphaz 阅读(703) 评论(0) 推荐(0) 编辑