摘要: 利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一、超级鹰注册:超级鹰入口 1、首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分,基本上就够学习使用了。如果想一直用可以用,可以充值,不是很贵。 2、下载超级鹰的python库代码 阅读全文
posted @ 2018-11-24 14:51 monty12 阅读(1247) 评论(0) 推荐(0) 编辑
摘要: 一、python识别简单验证码: 代码: 二、处理极验滑动验证码: 1、步骤: ·模拟点击验证按钮。 --可以通过selenium来完成。 ·识别滑动缺口的位置。--需要用图像处理的方法来完成。 ·模拟拖动滑块。 -- 阅读全文
posted @ 2018-11-22 21:27 monty12 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 一、selenium的使用: 1、简介: 是一个自动化的工具,可以利用它驱动浏览器执行特定的动作。 2、基本使用: 3、获取节点: (1)获取节点的方法: find_element_by_id (2)获得所有节点: find_elements_ 4、节点交互: 输入文字:send_keys() 清空 阅读全文
posted @ 2018-11-21 18:07 monty12 阅读(300) 评论(0) 推荐(0) 编辑
摘要: (只写了比较常用的函数和操作) 一、常用库函数: 1、os.getcwd() 获取当前的绝对路径。 2、os.getlistdir(path) 返回指定目录下的所有恩建和目录名 3、os.remove() 删除一个文件 4、os.removedirs(path) 删除多个目录 5、os.chdir( 阅读全文
posted @ 2018-11-21 17:56 monty12 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 一、类的定义: 1、 2、继承和多态: 3、类属性: 直接在类中定义的变量。 阅读全文
posted @ 2018-11-18 21:17 monty12 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 一、列表生成式: 1、[x * x for x in range(1, 11) if x % 2 == 0] 2、应用: 在爬虫爬到站内网址时,一般用的是站内URI,所以是无法发起请求的,一般情况下,需要加上一个前缀地址,一半可以用列表生成器来做。 3、代码: 结果: 二、生成器: 关键点:是yei 阅读全文
posted @ 2018-11-18 18:10 monty12 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 一、文本保存: 1、文件保存方式: 二、保存为json格式: 1、读取json: .loads() 方法 :读取字符串,然后返回json对象。 但需注意:json数据的字符串需要使用双引号来包含,不能使用单引号。 2、json文件读取: 3、json文件保存: 三、保存为csv文件: 1、写入: 2 阅读全文
posted @ 2018-11-15 18:10 monty12 阅读(1260) 评论(0) 推荐(0) 编辑
摘要: 一、xpath库使用: 1、基本规则: 2、将文件转为HTML对象: 3、属性多值匹配: //a[contains(@class,'li')] 4、多属性匹配: //a[@class="a" and @font="red"] 5、按序选择: 二、beautifulsoup库学习: 1、基本初始化: 阅读全文
posted @ 2018-11-14 21:38 monty12 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 一、代理: 1、是采用代理服务器的方式来访问服务器,以防止服务器封住本机的ip地址。 二、urllib库使用: 1、获得response对象: (1)方法: (1)status (2)getheaders() (3)read() (4)getheader(headername) (2)、参数: (1 阅读全文
posted @ 2018-11-13 21:39 monty12 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 一、最近在学习python爬虫的时候需要用到tesseract,但书上的给的教程对我并不适用,坑了好久天,才终于成功。 二、方法: 1、由于我看的是静谧博主的那本书。他给的教程在python3安装有问题。 2、步骤: (1)首先安装tesseract按照默认安装,可以不用下载所有的语言。 (2)pi 阅读全文
posted @ 2018-11-13 16:23 monty12 阅读(2037) 评论(0) 推荐(0) 编辑