CaptCha的现状与未来

2011年的老文.................转自于伯乐在线：http://blog.jobbole.com/4655/

有一个机会，朋友推荐一个创业的哥们给我认识，方向就是验证码识别，当时以各种不明显的陈述推诿掉，起初是职业道德的约束，到后来才发现，这其实是一个无比困难的问题。可以利用现有的API很快地做好一个可以运行的演示程序，但如果要改进，着实困难。

什么是验证码

“验证码”（ CAPTCHA ）其实并不是各位网友总是在不同网站上看到的难以辨认的字母组合的代名词，而是“全自动区分计算机和人类的图灵测试”的俗称，顾名思义，它的作用是区分计算机和人类。

在 CAPTCHA 测试中，作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题，所以回答出问题的用户就可以被认为是人类。 CAPTCHA 是由计算机来考人类，而不是标准图灵测试中那样由人类来考计算机，因此人们有时称 CAPTCHA 是一种反向图灵测试。

验证码是否真的保护了计算机系统

一队来自斯坦福大学的研究人员 PALO ALTO 指出很多验证码完全没有发挥应有的作用。这些研究人员甚至设计了一个通用程序，这个程序能够以极高的成功率识别出许多网站上的验证码，包括 Visa 旗下网站 Authorize.net 、暴雪官方网站、 eBay 以及维基百科。

这种识别技术用到了机器人视觉领域的一种概念模型，它有助于机器人不受图像噪点的干扰正确识别物体的外形。斯坦福这个名为 Decaptcha 的工具使用上述指导思想编写的算法能够将扭曲变形且充满噪点的图片分割成可以通过光学识别技术（ OCR ）辨别的字母和数字。

”大多数验证码投入使用之前都没有经过必需的验证，也缺少可靠性测试。“ 来自斯坦福大学安全实验室的研究人员 Elie Bursztein 博士后说：”我希望我们的研究能够让人们更为慎重的对待验证码的设计和使用。“

Decaptcha 能够成功识别 66% Visa 支付网站 Authorize.net 上的验证码图片，并可以顺利攻陷暴雪娱乐网站上 70% 的验证码。而维基百科有四分之一的验证码可以辨识，在 CNET 以及 Digg.com 上这个数字降低到了五分之一。来自斯坦福的这个研究团队随后指出，任何可辨识率超过 1% 的验证码系统都不应该被继续使用下去。

各大网站的验证码识别率：

随后暴雪发表声明说，他们明确的知道验证码技术并不具有足够高的安全性。”我们仅在初级安全层使用验证码技术抵挡一些特定的攻击，比如注册环节。我们使用一些更为安全可靠的技术来保护我们的客户与骨干服务器。“来自暴雪的 Shon Damron 这么说。

如今的验证码

验证码技术在目前的网络世界中仍然十分重要，它有助于阻止自动机器人批量注册网络邮箱并发送垃圾邮件，还能防止留言板被自动程序填塞广告，甚至使投票系统更能反映真实情况。

各大网站所使用的验证码范例：

新浪微博所使用的中文验证码范例——似乎没有考虑到国际化的情形：

到目前为止，只有 Google 的验证码完全阻挡了 Decaptcha 的辨识， Google 在 2009 年从卡耐基梅隆大学收购的 ReCaptcha 项目也表现出了极其高的可靠性。目前 ReCaptcha 已经被广泛地使用在了近 10 万网站上，这些网站包括 Twitter 、Facebook、Craigslist、TicketMaster （一个出售各类演唱会、体育比赛、歌剧以及艺术展览门票的网站）以及微软（ Microsoft ）。

Bursztein 希望开发者能够更加系统的设计和使用验证码技术，他举了一个例子： 20 世纪 80 年代人们通常埋头设计的自己的计算机程序算法，但随着时间的推移，大家发现对等测试和专业安全性评估也是非常重要的。

展望验证码的未来

较早前有报道指出， Google 正在测试一种新的验证码技术，这种验证码技术不像传统验证码系统要求输入文字，而是要求用户将图形旋转到正确的方向：

另一种基于图像的验证码：

类似的验证码还有要求用户输入当前时间，所访问的网站域名，自己所在的时区，甚至美国总统姓名，人类第一颗登陆的地外星球等。这类验证码主要考虑到通常自动计算机程序没有足够的逻辑思考能力，不能辨识并解答逻辑问题。拼图验证码，找不同验证码（比如从几张猫的图片中找出一张狗的图片）的验证码从本质上来说也非常类似，但目前没有大规模部署这类验证码的主要原因是没有足够的资源，难以抵挡穷举攻击（攻击者多次刷新验证码后可能出现相同的问题）。

要求用户绘制图形的验证码：