摘要: 正则表达式re.S的用法在Python的正则表达式中,有一个参数为re.S。它表示“.”(不包含外侧双引号,下同)的作用扩展到整个字符串,包括“\n”。看如下代码:import rea = '''asdfsafhellopass: 234455 world... 阅读全文
posted @ 2018-02-23 19:19 m*x*h 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 在用tesseract进行验证码识别之前,我们首先需要对验证码图片进行预处理,尽量去除噪声,而只保留有验证码信息的像素验证码噪声分析通常验证码噪声主要有以下:变色:对验证码字符像素进行变色,但一般而言为了可以辨认都是和图像底色有一定差别的。这就可以通过二值图像,把验证... 阅读全文
posted @ 2018-02-23 17:11 m*x*h 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 代理(proxies参数)如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:import requests# 根据协议类型,选择不同的代理proxies = { "http": "http://12.34.56.79:9527", ... 阅读全文
posted @ 2018-02-23 17:10 m*x*h 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 只是想说明一个问题,Cookie可以维持登录状态,有些网页当中,访问之后的cookie里面带有登陆账号,和登陆密码,这样可以使用cookie直接访问网页,如知乎,首先登录知乎,将Headers中的Cookie内容复制下来这个需要替换成你自己的Cookie,将其设置到H... 阅读全文
posted @ 2018-02-23 17:08 m*x*h 阅读(791) 评论(0) 推荐(0) 编辑
摘要: 第一步: 官方安装包下载地址:download 因为只包含英文语言包,如果需要其他语言包下载地址:download the appropriate training data 并将语言包解压至tessdata目录。最常用的简体字识别包:https:/... 阅读全文
posted @ 2018-02-23 17:01 m*x*h 阅读(305) 评论(0) 推荐(0) 编辑