摘要:
zipfile包是python中用来处理zip文件压缩和解压缩的 一、导包 import zipfile 二、zipfile.ZipFile类 z = ZipFile(file, mode="r", compression=ZIP_STORED, allowZip64=True,compressle 阅读全文
摘要:
python脚本中可以通过PyExecJS库来处理js代码(可参考:excejs的使用),但是性能并不高,很难满足高并发的要求 Node.js是一个Javascript运行环境(runtime)。它对Google V8引擎进行了封装,使用事件驱动, 非阻塞I/O 模型而得以轻量和高效,能够方便地搭建 阅读全文
摘要:
使用scrapy-splash,可以模拟浏览器来加载js,因此可以用来处理那些使用js动态加载的页面。 scrapy-splash组件的使用: 1、借助docker启动splash服务 docker的安装及配置镜像加速器 可参照https://www.cnblogs.com/eliwang/p/15 阅读全文
摘要:
JsonPath 是一种信息抽取类库,是从JSON文档中抽取指定信息的工具 语法: $ :根节点 @:现行节点 . 或者[ ] :取子节点 ..:不管位置,选择节点 *:匹配所有节点 [ ]:内部可以填上索引值、键名, 常用表达式: 示例: In[1]: from jsonpath import j 阅读全文
摘要:
fake_useragent模块已经封装好了各种浏览器的User-Agent,方便我们随机选取,但是最近使用该模块的时候一直报错:Maximum amount of retries reached 解决方案: 我们可以手动下载fake_useragent_0.1.11.json文件(以该版本为例), 阅读全文
摘要:
滑动验证距离 分别获取验证码背景图和滑块图两张照片,然后利用opencv库,通过高斯模糊和Canny算法进行处理,然后通过matchTemplate方法进行两张图的匹配,获得滑动距离。需要注意的是,知乎验证码在进行操作的时候,需要在原有基础上再向右偏移10px距离 def get_distance( 阅读全文
摘要:
分析并找出请求接口 百度翻译的结果在页面上是局部刷新的,我们可以直接打开浏览器抓包工具,分析ajax请求,找出请求的数据包: 我们发现数据是通过https://fanyi.baidu.com/v2transapi?from=zh&to=en这个请求发送的,Post请求 分析该请求的参数: simpl 阅读全文
摘要:
1、安装PyExecJS包 pip3 install PyExecJS 2、本地安装Node.js: 执行js有时需要浏览器环境,需要window对象和document对象,所以需要安装Node.js环境 Node.js 安装包及源码下载地址为:https://nodejs.org/en/downl 阅读全文
摘要:
介绍 jQuery是目前使用最广泛的javascript函数库。一个js文件,页面用script标签引入这个js文件就可以使用。 加载 将获取元素的语句写到页面头部,会因为元素还没有加载而出错,jquery提供了ready方法解决这个问题,它的速度比原生的 window.onload 更快。 $(d 阅读全文
摘要:
介绍 JavaScript是运行在浏览器端的脚步语言,JavaScript主要解决的是前端与用户交互的问题,包括使用交互与数据交互。 嵌入页面方式 行间事件(主要用于事件) <input type="button" name="" onclick="alert('ok!');"> 超链接href属性 阅读全文