(转)印度建全球最大生物识别数据库,MongoDB安全受质疑

受棱镜门影响,各界对Aadhar的质疑从是否将威胁人民隐私与安全,转而聚焦在 Aadhar 搜集、储存以及处理资料的方法,以及美国新创公司 MongoDB 在计划中扮演的角色。

泱泱大国印度一直以来都无法顺利完全登录其国内人口的资料,但 Aadhar 计划带来曙光:印度的唯一身分识别计划(Unique Identification Project)又称为 Aadhar 计划。该计划近来所累计的人口数据与生物数据超过 5 亿人,成为世界上同类型的生物识别数据库中最大者。

Aadhar 成立几年以来,持续在批评声浪中前进。各界质疑其是否将威胁人民隐私与安全,而近来批评火力则聚焦在 Aadhar 搜集、储存以及处理资料的方法,许多人也担忧美国新创公司 MongoDB 在计划中扮演的角色。

MongoDB 为 NoSQL 数据库,该公司去年获独立非营利机构 In-Q-Tel 资助,而众人担忧的重点在于 In-Q-Tel 为美国 CIA 与其他情资单位支持的机构。

  • 美国国安局或介入?Aadhar 合作伙伴 Mongo DB 引争议

印度众家媒体皆引述政党与政治运动份子的观点,质疑由 Infosys 共同创办人 Nandan Nilekani 所领导的 Aadhar 如何处理敏感数据,其中有些报导直接将此争议与 MongoDB 连结。

全球政府在美国国家安全局(NSA)的棱镜计划曝光后,对于美国政府情资单位无不万分堤防,所以 MongoDB 与情资单位的关系必然引起忧虑。此外,由于明年大选在即,因此国内政治讨论热烈;又 Aadhar 正争取今年通过议会立法,成宪法核准的单位。Aadhar 在此等时空背景下面对这些质疑与指控,挑战无比艰巨。

我亲身拜访 Aadhar 在班加罗尔(Bangalore)的办公室。而根据与我交谈的工作人员表示,虽然有人认为 MongoDB 与 Aadhar 的合约中包括共享数据,但事实上 Aadhar 仅使用 MongoDB 的开源程序代码,并不涉及敏感数据。而印度唯一身分识别局(UIDAI)也反驳指控,表示并没有提供印度人民的数据给美国情资单位。

在这次访问中我还了解到其他面向,诸如世界上最大的生物识别数据库如何运作,以及如何处理安全与隐私问题,这些将在文章中向各位分享。

  • Aadhar 对印度的意义:进行人口普查,有效补助弱势

Aadhar 出现的时空背景为何呢?在印度,超过 5 亿人无正式身分标识符(ID)或类似作用的编码,因此这些人无法取得政府补助、开设银行账户、贷款、考取驾照等等。

Aadhar 数据库有机会解决这个问题:该计划目前每天登录超过 1 百万名印度人,预计在明年底总计约达 12 亿人,数目之庞大让该数据库成为全球最大生物识别数据库。

对于印度人来说,拥有 12 码的 Aadhar 编号有诸多好处,其中之一就是政府得以与国内贫穷人口的银行账户连结,直接转入现金福利及其他补助,目前已经有将近 4 千万组银行账户与 Aadhar 连结。

根据研究公司 CLSA,印度政府给予穷困阶层的补助与福利共计为 2,500 亿美元,而其中 40% 都会在接下来几年内遭贪污殆尽。但若 Aadhar 能协助政府直接转账予需要帮助的穷人,该计划便能从中阻断贪污腐败。

不过,许多智库与社运份子,例如总部位于班加罗尔的网络与社会中心(Bangalore-based Centre for Internet & Society)对于 Aadhar 有些担忧,他们担心人民隐私问题,也怀疑整个计划的效用。

  • 全球最大的生物识别数据库:安全系统由前 Intel 工程师操刀

我与 Aadhar 内部人员约在其总部会面,我希望可以了解其安全状况、目前进展还有他们对于外界有关 MongoDB 的指控如何反应。

Aadhar 的总部设在班加罗尔南郊,Intel 与 Cisco 的印度总部也设立在此。Aadhar 的科技中心外观并不像政府机关的建筑物,该中心内存有其搜集之所有数据数据,目前数量为 5 PB。

当我走进中心内其中一间办公室时,我看见十几台电视屏幕架设在中央,大约 20 位年轻工程师全神贯注,边盯着屏幕边在计算机键盘上敲打以确认储存信息的数据报之动作,整个房间的气氛与装置颇像复杂精密的指挥室。屏幕上显示的是大小约 5 MB 的数据报的整体处理过程:这些数据报先从全国各地约 3 万间注册中心登录,接着通过至少三次验证才处理完成。验证时会重复审核每份数据以确定每人只有一组 Aadhar 编码。

所以每份新注册的数据都要与其他数据库中的数据重新比对过,而现存数据量已经超过 5 亿笔。

Srikanth Nadhamuni 为前英特尔工程师,在 2010 年 9 月时,他协助建立 Aadhar 的科技平台。他说这些数据报都是以 2048 位保密技术所保护,而且若有未经授权者尝试侵入,数据报皆会自动损毁。

  • MongoDB风波:Aadhar 表示 MongoDB 并未接触到核心信息

为什么 Aadhar 当初选择 MongoDB,又会不会继续与这家新创公司合作呢?

Aadhar 科技中心的助理总干事 Sudhir Narayana 告诉我,当初他们从许多数据库产品(包括 MySQL、Hadoop 及 HBase)之中选出 MongoDB 来协助处理数据库搜寻工作,MySQL 数据库只能储存人口统计数据,但 MongoDB 可以储存图片,比较符合 Aadhar 的需要。

然而,Aadhar 开始逐渐将其数据库相关工作转往 MySQL,因为他们发现 MongoDB 并无法应付数以百万计的数据报。Aadhar 已经开始拆分数据库,把数据报分存在不同机器上,藉此确保系统不致超载,此举使 Aadhar 减少其对于 MongoDB 的依赖,并改以 MySQL 来储存其大部分的数据。

该科技中心的副总干事 Ashok Dalwai 表示 MongoDB 并无法取得任何生物特征数据。Dalwai 表示 Aadhar 相信使用开源科技可以避免任一供货商独占该领域,但这并不代表他们不重视安全性。

当我联系到 MongoDB 发言人时,他们表示公司与其资金来源(包括 In-Q-Tel)之间的关系都写在这份声明中,供读者参考。

更重要的是,印度唯一身分识别局开始使用 MongoDB 的开源软件时,In-Q-Tel 尚未资助 MongoDB,且之间相隔时间并不短,而从 Cruchbase 的统计数据来看,也可看出 MongoDB 是在 2012 年时获 Red Hat、Intel Capital 与 In-Q-Tel 的创业投资共计 770 万。

  • Aadhar的发展前景为何?

纵然争议缠身,工作人员表示,Aadhar 的登录人数将在 2014 年底前超过 12 亿,届时该数据库规模将达 15 PB。

目前该计划每天登录约 1 百万人,Narayana 说他有信心,从明年起,每天的登录人数将成长为 2 百万,照着如此步调走的话,他们将顺利把剩下 7 亿人纳入数据库中。

而它是否能改革印度政府贪污陋习,并顺利救济其贫困人口呢?此点有待观察,唯一确定的是,全球最大的生物识别数据库仍继续马不停蹄地吞纳源源不绝的数据。

文章来源:TechCrunch/TechOrange;图片来源:IndiaTimes

posted @ 2014-03-03 11:24  海上浪子  阅读(329)  评论(0编辑  收藏  举报