手把手使用Python教你破解谷歌(Google)人机验证码—上篇
/1 前言/
今天呢,咱们来说一下Google,我们都知道,Google是目前地表最强的搜索引擎了,我们可以借助Google庞大的搜索资源找到一些自己想要的资源,可能是一些收费电影,可能是一些奇门小说,可能是某个角落的种子,不管怎么说,Google搜索还是挺给力的,但是呢,有梯子的我们可能都遇到过,我们搜索的多了,会有下图的这种情况。
这种验证码呢,叫做ReCaptcha验证码,相对来说,是比较繁琐的验证码之一。
当然了,ReCaptcha不止谷歌一家在用,国外的网站很多都是使用这种验证码,但是在国内不多,因为在国内比较容易被墙,所以用的少。但是我们是高端玩家,在自由的Internet中,我们怎么可能只局限于国内,下面,我们就针对ReCaptcha验证码进行破解。
/2 测试网站预览/
测试网站:https://www.google.com/recaptcha/api2/demo
谷歌提供的范例,实际网站验证码和这个一模一样。
ReCaptcha验证码样式,如下图所示。
/3 为什么使用第三方平台/
今天呢,咱们来说一下Google,我们都知道,Google是目前地表最强的搜索引擎了。老读者们可能知道,年前的时候我用第三方服务破解了B站的登录,没有来得及上车的小伙伴可以戳这两篇文章:干货|Python大佬手把手带你破解哔哩哔哩网滑动验证(上篇),干货|Python大佬手把手带你破解哔哩哔哩网滑动验证(下篇)。但是经常逛B站的小伙伴们肯定都知道B站目前已经更改了登录方式,想了解之前B站自动登录的小伙伴可以戳这里:Python奇淫技巧之自动登录哔哩哔哩,所以我那篇文章真是赶上了末班车,但是然并卵,现在肯定是登录不了了。后期有时间,给大家整理一篇关于B站破解的新文章学习一下。
嗯,看到这可能有人会对我不屑一顾,说辣鸡才会用第三方平台,要是按照技术来划分的话,我是真的辣鸡,哈哈~~
但是这里要抬杠一下,并不是说用第三方平台就是辣鸡,我们可以想象一下,如果是滑动验证码,我们当然有一试的能力,python可以调用OpenCV,看看文档,当然是可以实现了。但是有个问题是,你可能针对的一个网站的滑动验证识别好了,但是在每个网站的滑动验证码都不太一样的情况下,在用OpenCV识别的时候,可能就会出现识别率低的情况。要是在公司,一直完不成任务,嗯,,,等着被炒鱿鱼吧,再说,像谷歌人机个人也解决不了,没有NB的机器学习是不可能的,所以只能用第三方平台,毕竟,完成任务才是首要任务。
话不多说,这里选用的第三方平台:https://2captcha.com/zh?from=8779379。
/4 为什么使用第三方平台/
我们先来了解一下现在打码平台机制大概都有哪些,不是很全面,但是可以参考一下。
第一种呢:就是打码平台训练好各种各样的数据,比如,哪些是花,哪些是车,然后我们把图片发送给打码平台,他给我们结果,但是这样会有个问题,如果训练的不好,我们这边的结果也是很不好的,各种不准确,影响效果
第二种:就是平台雇人,我们把整个验证码都给打码平台,平台找人帮助我们点击,然后把结果给我们,我们在登录了或者做其他
我们可以看出来,肯定是第二种更加灵活的,现在阶段,机器再NB,至少 在验证码上准确率还是不如我们人类这么机智的。
2captcha平台目前采用的就是第二种方式,赚取的是中间差价,但是识别率是我用过最高的,曾经因为选错了平台,一直不成功,加班加点,鼠标都被我砸坏了,唉,所以,选择一个合适的平台还是很重要的
/5 所需工具/
Chromedriver:浏览器驱动,可以理解为一个没有界面的chrome浏览器。
Selenium:用于模拟人对浏览器进行点击、输出、拖拽等操作,就相当于是个人在使用浏览器,也常常用来应付反爬虫措施。
/6 总结/
写到这里,文章字数已经将近2000字了,介于篇幅原因,这篇文章主要介绍了第三方打码平台(点击阅读原文可以获取)和破解的理论部分,下一篇文章将详细介绍破解谷歌人机的具体过程,下篇文章会配上较多的图和代码,小伙伴们敬请期待吧!