[论文笔记] reCAPTCHA: Human-Based Character Recognition via Web Security Measures (Science, 2008)
Luis von Ahn, Benjamin Maurer, Colin Mcmillen, David Abraham, and Manuel Blum. reCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science, (321)5895:1465-1468, Aug 14, 2008. (gs: 195)
前段时间水木joke版有个关于reCAPTCHA的热帖,并上了十大,觉得这个东西比较有意思,就下载了这篇论文来看。
本文作者是Luis von Ahn, 2000年毕业于Duke大学的数学专业,然后在CMU读博,师从Manuel Blum(图灵奖获得者, 计算的复杂性理论的奠基人之一)。他的博士论文题目是《Human Computation》,这个领域是由他所提出(“I am working to develop a new area of computer science that I call Human Computation. In particular, I build systems that combine the intelligence of humans and computers to solve large-scale problems that neither can solve alone. An example of my work is reCAPTCHA, in which over 750 million people—more than 10% of humanity—have helped digitize books and newspapers. ”)。
这篇关于reCAPTCHA的文章,发表在Science上,idea很容易理解却令人赞叹:
CAPTCHA(“Completely Automated Public Turing test to tell Computers and Human Apart”)这个称谓最早是在2000年由CMU的Luis von Ahn, Manuel Blum等人提出,中文直译为“全自动区分计算机和人类的图灵测试”,俗称“验证码”,现在是登陆注册时的必备步骤。
最初的CAPTCHA的图片由机器生成,控制程序知道正确答案,其发挥的功效纯粹就是为了防止机器自动注册;而reCAPTCHA则赋予了这个过程更加深远的意义,除了能更好区分人和机器的作用,还能“顺便”为文献数字化做出贡献,思路很简单:
将计算机出现之前大量的书籍、报刊等书面资料电子化是一项很有意义且繁重的工作,OCR是这方面较为有效的自动化技术,但有些文献由于字迹模糊、褪色、污损等原因,无法被OCR识别;同时,这些OCR无法识别的内容由人工辨认却相对较为容易。reCAPTCHA系统中,验证码有两个单词组成,一个叫“control word”(控制系统知道答案),另一个叫”unknow word”(来源于OCR无法识别的部分,控制系统不知道答案), 因此,对于用户的输入,只能验证“control word“部分,如果这部分是对的,就认为”unknown word”部分用户也提供了可信的答案。为了提高可信程度,同一个的”unknown word”会被分配给多个用户,综合这些用户的回答及其他信息,来判定这个“unknown word”是否被正确识别。
作者开发了reCAPTCHA系统,并以服务形式免费提供给外部,从而加速文献数字化的工作。
作者在最后总结提到:
We believe the results presented here are part of a proof of concept of a more general idea: “Wsted”human processing power can be harnessed to solve problems that computers cannot yet solve. Some have referred to this idea as “human computation”.
针对作者在本文所提出的模式,有这么几点想法:
(1)基础条件有两个。第一是互联网,通过互联网,才有可能将一些工作化整为零由网络群体共同完成;第二是互联网上有很多“闲人”,这些人闲到会以相当的时间和精力去做一些“无聊”的事情(比如以前比较流行的偷菜游戏等)。
(2)这种模式要能运行,必须要有两个条件:
(a) 要设计出与任务相匹配的激励机制(可以是达到某种目的,如完成注册,也可以是钱或者荣誉等);
(b) 任务必须能够被分解成“小块”,且能够再被组装起来。
(3)reCAPTCHA中针对的是所有的网民,这种模式也可以被设计成针对一些特定的群体,比如topcoder也可以认为是一种针对开发人员的同类模式。在topcoder中,主要靠美元来激励,由架构师负责将任务分解成模块由开发人员完成,最终会再组装起来。
(4)相对来说,广大学生是较为有闲的一类群体,且这类群体多受过良好的教育,有能力完成较复杂的任务。因此,针对这类群体设计一个“human computation”模式,成功可能性较大。
Human Computation相关的一些资源
会议、研讨会等
Human Computation Workshop ACM
Conference on Human Factors in Computing Systems
出版物
Edith Law and Luis von Ahn. Human Computation. Morgan & Claypool Synthesis Lectures on Artificial Intelligence and Machine Learning, August 2011.