[论文笔记] reCAPTCHA: Human-Based Character Recognition via Web Security Measures (Science, 2008)

Luis von Ahn, Benjamin Maurer, Colin Mcmillen, David Abraham, and Manuel Blum. reCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science, (321)5895:1465-1468, Aug 14, 2008. (gs: 195)

前段时间水木joke版有个关于reCAPTCHA的热帖，并上了十大，觉得这个东西比较有意思，就下载了这篇论文来看。
本文作者是Luis von Ahn， 2000年毕业于Duke大学的数学专业，然后在CMU读博，师从Manuel Blum(图灵奖获得者, 计算的复杂性理论的奠基人之一)。他的博士论文题目是《Human Computation》，这个领域是由他所提出（“I am working to develop a new area of computer science that I call Human Computation. In particular, I build systems that combine the intelligence of humans and computers to solve large-scale problems that neither can solve alone. An example of my work is reCAPTCHA, in which over 750 million people—more than 10% of humanity—have helped digitize books and newspapers. ”）。

这篇关于reCAPTCHA的文章，发表在Science上，idea很容易理解却令人赞叹：

CAPTCHA（“Completely Automated Public Turing test to tell Computers and Human Apart”）这个称谓最早是在2000年由CMU的Luis von Ahn, Manuel Blum等人提出，中文直译为“全自动区分计算机和人类的图灵测试”，俗称“验证码”，现在是登陆注册时的必备步骤。

最初的CAPTCHA的图片由机器生成，控制程序知道正确答案，其发挥的功效纯粹就是为了防止机器自动注册；而reCAPTCHA则赋予了这个过程更加深远的意义，除了能更好区分人和机器的作用，还能“顺便”为文献数字化做出贡献，思路很简单：

将计算机出现之前大量的书籍、报刊等书面资料电子化是一项很有意义且繁重的工作，OCR是这方面较为有效的自动化技术，但有些文献由于字迹模糊、褪色、污损等原因，无法被OCR识别；同时，这些OCR无法识别的内容由人工辨认却相对较为容易。reCAPTCHA系统中，验证码有两个单词组成，一个叫“control word”（控制系统知道答案），另一个叫”unknow word”（来源于OCR无法识别的部分，控制系统不知道答案）, 因此，对于用户的输入，只能验证“control word“部分，如果这部分是对的，就认为”unknown word”部分用户也提供了可信的答案。为了提高可信程度，同一个的”unknown word”会被分配给多个用户，综合这些用户的回答及其他信息，来判定这个“unknown word”是否被正确识别。
作者开发了reCAPTCHA系统，并以服务形式免费提供给外部，从而加速文献数字化的工作。

作者在最后总结提到：

We believe the results presented here are part of a proof of concept of a more general idea: “Wsted”human processing power can be harnessed to solve problems that computers cannot yet solve. Some have referred to this idea as “human computation”.

针对作者在本文所提出的模式，有这么几点想法：

（1）基础条件有两个。第一是互联网，通过互联网，才有可能将一些工作化整为零由网络群体共同完成；第二是互联网上有很多“闲人”，这些人闲到会以相当的时间和精力去做一些“无聊”的事情（比如以前比较流行的偷菜游戏等）。

    （2）这种模式要能运行，必须要有两个条件：
             (a) 要设计出与任务相匹配的激励机制（可以是达到某种目的，如完成注册，也可以是钱或者荣誉等）；
             (b) 任务必须能够被分解成“小块”，且能够再被组装起来。

（3）reCAPTCHA中针对的是所有的网民，这种模式也可以被设计成针对一些特定的群体，比如topcoder也可以认为是一种针对开发人员的同类模式。在topcoder中，主要靠美元来激励，由架构师负责将任务分解成模块由开发人员完成，最终会再组装起来。

（4）相对来说，广大学生是较为有闲的一类群体，且这类群体多受过良好的教育，有能力完成较复杂的任务。因此，针对这类群体设计一个“human computation”模式，成功可能性较大。

Human Computation相关的一些资源

会议、研讨会等

Human Computation Workshop ACM
Conference on Human Factors in Computing Systems

出版物

Edith Law and Luis von Ahn. Human Computation. Morgan & Claypool Synthesis Lectures on Artificial Intelligence and Machine Learning, August 2011.

posted @ 2011-11-30 21:11 玉泉老博阅读(849) 评论(0) 编辑收藏举报

刷新页面返回顶部