monty12

2018年11月24日

摘要：利用selenium库和超级鹰识别点触验证码（学习于静谧大大的书，想自己整理一下思路）一、超级鹰注册：超级鹰入口 1、首先注册一个超级鹰账号，然后在超级鹰免费测试地方可以关注公众号，领取1000积分，基本上就够学习使用了。如果想一直用可以用，可以充值，不是很贵。 2、下载超级鹰的python库代码阅读全文

posted @ 2018-11-24 14:51 monty12 阅读(1247) 评论(0) 推荐(0) 编辑

2018年11月22日

python 验证码识别

摘要：一、python识别简单验证码：代码：二、处理极验滑动验证码： 1、步骤： ·模拟点击验证按钮。 --可以通过selenium来完成。 ·识别滑动缺口的位置。--需要用图像处理的方法来完成。 ·模拟拖动滑块。 -- 阅读全文

posted @ 2018-11-22 21:27 monty12 阅读(304) 评论(0) 推荐(0) 编辑

2018年11月21日

动态渲染页面抓取

摘要：一、selenium的使用： 1、简介：是一个自动化的工具，可以利用它驱动浏览器执行特定的动作。 2、基本使用： 3、获取节点：（1）获取节点的方法： find_element_by_id （2）获得所有节点： find_elements_ 4、节点交互：输入文字：send_keys() 清空阅读全文

posted @ 2018-11-21 18:07 monty12 阅读(300) 评论(0) 推荐(0) 编辑

python os模块学习

摘要：（只写了比较常用的函数和操作）一、常用库函数： 1、os.getcwd() 获取当前的绝对路径。 2、os.getlistdir(path) 返回指定目录下的所有恩建和目录名 3、os.remove() 删除一个文件 4、os.removedirs（path）删除多个目录 5、os.chdir( 阅读全文

posted @ 2018-11-21 17:56 monty12 阅读(180) 评论(0) 推荐(0) 编辑

2018年11月18日

python面向对象

摘要：一、类的定义： 1、 2、继承和多态： 3、类属性：直接在类中定义的变量。阅读全文

posted @ 2018-11-18 21:17 monty12 阅读(109) 评论(0) 推荐(0) 编辑

python高级特性

摘要：一、列表生成式： 1、[x * x for x in range(1, 11) if x % 2 == 0] 2、应用：在爬虫爬到站内网址时，一般用的是站内URI，所以是无法发起请求的，一般情况下，需要加上一个前缀地址，一半可以用列表生成器来做。 3、代码：结果：二、生成器：关键点：是yei 阅读全文

posted @ 2018-11-18 18:10 monty12 阅读(183) 评论(0) 推荐(0) 编辑

2018年11月15日

爬虫数据保存

摘要：一、文本保存： 1、文件保存方式：二、保存为json格式： 1、读取json: .loads() 方法：读取字符串，然后返回json对象。但需注意：json数据的字符串需要使用双引号来包含，不能使用单引号。 2、json文件读取： 3、json文件保存：三、保存为csv文件： 1、写入： 2 阅读全文

posted @ 2018-11-15 18:10 monty12 阅读(1260) 评论(0) 推荐(0) 编辑

2018年11月14日

python爬虫解析库学习

摘要：一、xpath库使用： 1、基本规则： 2、将文件转为HTML对象： 3、属性多值匹配： //a[contains(@class,'li')] 4、多属性匹配： //a[@class="a" and @font="red"] 5、按序选择：二、beautifulsoup库学习： 1、基本初始化：阅读全文

posted @ 2018-11-14 21:38 monty12 阅读(245) 评论(0) 推荐(0) 编辑

2018年11月13日

爬虫（1）

摘要：一、代理： 1、是采用代理服务器的方式来访问服务器，以防止服务器封住本机的ip地址。二、urllib库使用： 1、获得response对象： (1)方法：（1）status (2)getheaders() (3)read() (4)getheader(headername) (2)、参数： (1 阅读全文

posted @ 2018-11-13 21:39 monty12 阅读(117) 评论(0) 推荐(0) 编辑

python安装tesseract

摘要：一、最近在学习python爬虫的时候需要用到tesseract，但书上的给的教程对我并不适用，坑了好久天，才终于成功。二、方法： 1、由于我看的是静谧博主的那本书。他给的教程在python3安装有问题。 2、步骤：（1）首先安装tesseract按照默认安装，可以不用下载所有的语言。（2）pi 阅读全文

posted @ 2018-11-13 16:23 monty12 阅读(2037) 评论(0) 推荐(0) 编辑

公告