数据标注的困境
数据标注的困境
众所周知,机器学习主要分为两类:监督学习(supervised learning)与无监督学习(unsupervised learning)。而监督学习离不开数据标注(data labeling),也就是依靠人工 找到groundtruth。
标注平台
标注平台这今年开年如雨后春笋般都纷纷出现在公众视野,表现形式最直接的就是百度搜索的时候明显增多了而且有很多用了百度的竞价排名,其中不乏一些大厂的内部平台对外运营了,也有一些标注公司自己做的标注平台。
服务外包公司
这类公司目前是最多的了,同时也是支撑大部分平台类公司运营的关键。一个相对稳定收益的项目,这个年头谁不愿意做呢?
实际状况
智能时代滚滚巨轮之下,一批批用于“人脸识别”、“自动驾驶”、“自然语言处理”的标注好的数据,正是出自这些学历不高,每天对着电脑工作8到10小时的人手中——他们是“人工智能背后的人工”。经过采访了多个数据标注服务商、数据标注工作室和数据标注者。据业内人士估计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……他们源源不断地为人工智能的发展供应最重要的“数据燃料”——在现有的技术框架下,数据量越大,质量越好,算法模型就表现越好。可以说,数据决定着整个人工智能行业的发展态势。但标注工作本身是一个劳动密集型工种,收入并不高。随着技术的进一步发展,未来还有被取代的可能。许多数据标注者的父辈是参与了中国房地产奇迹的农民工。如今,父辈手里的铁铲变成了年轻人的鼠标、键盘,但和父辈一样,他们仍是边缘者。
烧钱速度有多快?
近年来,我们注意到,数据标注创业公司层出不穷。只要在图片中标注一辆汽车,只需一秒钟,就能轻轻松松一美元进账。标注一段几十秒视频中的汽车,就能几百美元进账。数据标注的成本与需求都在节节攀升。据市场研究预测,到2023年,数据标注市场将达到10亿美元的规模。
这些数据标注公司一般会开发出基本的物体识别算法,然后在人工成本较低的地区招人,培训他们,让他们找到机器识别中的错误,改正之后提交。比如,一些总部在硅谷的公司会在比较偏远的州建立分部,进行数据标注。也有很多公司将业务外包给数据标注公司,这些公司的员工一般在非洲国家、印度或者其他人工成本较低的国家。对数据需求量大的公司,每个月支付给外包公司上百万美元,才能满足开发需求。
数据标注不仅消耗资金,也是训练模型中最耗时的环节。从数据采集到最终标识,很可能要等待一个月的时间。严重影响了开发进度。因此,很多无人驾驶公司开始研究数据标识,希望不再依赖人力与第三方公司。
印度数据标注公司iMerit
数据标注无处不在
训练无人驾驶的模型就需要理解各种障碍物的含义,就离不开数据标识。无人驾驶的数据标识主要可以用两个维度来看。第一个维度是2D和3D的分别。2D一般指通过摄像头捕捉到的数据,3D指激光雷达捕捉到的数据。第二个维度是语义分割(semantic segmentation)与画框(bounding box)的分别。
2D画框的例子
3D语义标注的例子
鱼和熊掌不可兼得
数据标注的难点主要来源于两个方面:速度与质量。速度慢了就满足不了模型训练的需求,而太快就会影响质量,质量低了就会影响模型的准确性。在资源有限的情况下,速度与质量往往鱼和熊掌不可兼得。
我们可以通过两种手段来解决这一矛盾:合理的流程和更自动化的机器学习技术。
首先来看流程。数据标识速度慢,或是质量低,其实很多时候不是技术的问题,而是流程的问题。数据从采集到产出,首先要被“筛选”,分发到数据标识人员的手上,然后被标识,标识的结果再被传回来,最后需要抽检,保证质量。这些步骤中很多地方需要改进。比如,哪类数据应该被筛选?质量不合格的标识该怎么办?是否要退回重做?重做又需要时间,不重做就意味着需要更多的数据。对于资金不够充足的公司,改进流程往往是最合适的手段。
从技术方面来看,近年来,AutoML(Automated Machine Learning)的概念越来越火,即端到端的全自动机器学习技术,可以自主调参,自主评估模型,从而缩短模型训练的周期。但是,AutoML不是万能的。至少在未来几年里,我们都无法摆脱对人工数据标识的依赖。我们需要找到一种人机共生的方式,将人类对机器的帮助最大化。
欧洲数据标识市场中,人工标识的占比始终占大多数
人机共生(Human-in-the-Loop)
2020-2030这十年,将是人类探索与AI合作机会的十年。数据标注就是人类与AI合作最完美的途径之一。利用机器学习技术进行视觉探测,虽然成本低、速度快,但是往往有一定的错误率。这时,就需要人类介入,告诉机器错在了哪里。机器会记住这些人类提供的回馈信息,进一步训练自己的模型,避免下次在类似场景中犯同样的错误,从而形成了一个循环。
比如,AI探测结果是,某个交通信号灯的颜色是红色,而人类检查后发现应该是绿色,就通过某个前端工具点击“错误”。开发团队要尽快找到模型最需要的反馈信息,为人类标注员提供一个工具,将人类的反馈快速分享给机器。