深度学习与传统图像识别
深度学习与传统图像识别
概述
传统方法中特征提取主要依赖人工设计的提取器,需要有专业知识及复杂的调参过程,同时每个方法都是针对具体应用,泛化能力及鲁棒性较差。
深度学习主要是数据驱动进行特征提取,根据大量样本的学习能够得到深层的、数据集特定的特征表示,其对数据集的表达更高效和准确,所提取的抽象特征鲁棒性更强,泛化能力更好,并且可以是端到端的。缺点是样本集影响较大,算力要求较高。
(1)大量冗余的proposal生成,导致学习效率低下,容易在分类出现大量的假正样本。(2)特征描述子都是基于低级特征进行手工设计的,难以捕捉高级语义特征和复杂内容。(3)检测的每个步骤是独立的,缺乏一种全局的优化方案进行控制。
随着卷积神经网络,计算机能力及计算机视觉等方向的发展,基于深度学习的图像识别已经在精度和实时性方面,远远赶超传统图像。
两种都有优点,都有弊端,深度学习做识别,精度高,不然大佬们还再搞传统的一些办法,特征提取的过程是自学习的,泛化能力比较强,但是需要大量的训练标注数据,对硬件要求高。传统方法实现相对简单,对硬件要求低,但是往往精度差,泛化能力弱。个人认为两手抓,不要什么都是深度学习,摒弃传统办法,在产品中往往两种方式结合的较多。
深度学习也不是万能的,具体效果还是要根据具体情况。深度学习的优势在于从万千数据中自动找寻特征。对于零件质检领域,由于背景固定且简单,传统方法通过边缘检测,梯度直方图等方法也能实现很不错的效果。但是对于诸如识别一只猫这种图像识别任务,传统方法很难找到一种鲁棒性特征去恰当的描述猫,这时候深度学习就可以上场了。
深度学习能够解决更多高级的、语义级别的、只能抽象描述的图像识别、检测、风格、创造性的问题。优点是效果优异、泛化更好、可端到端训练、无需复杂调参,仍处于蓬勃发展的时期;但算力、数据消耗大,可解释性目前很弱。
传统图像算法能解决某些特定场景的、可人工定义、设计、理解的图像任务。特定场景效果好,但普遍泛化性弱,可解释性更强,性能一般更好,但调参依赖专业知识和经验。目前在某些极端低算力场景、特定海量处理场景仍有一定应用价值。
总体来讲,一种是人工认知驱动的方法,一种是数据驱动的方法。应用的话看场景,只不过深度学习一直在不断拓展其应用的场景,传统方法在某些时候扔具有一定价值。
1. 简单与复杂
首先,需要就视觉/计算机视觉问题提出一些看法。原则上它可以这样理解,人们给定一幅由摄像机拍摄的图像,并允许计算机回答关于与该图像内容的相关问题。
问题的范围可以从“图像中是否存在三角形”,“图像中是否有人脸”等简单问题到更为复杂的问题,例如“图像中是否有狗在追逐猫”。尽管这类的问题看起来很相似,对于人类来说甚至有点微不足道,但事实证明,这些问题所隐藏的复杂性存在巨大差异。
虽然回答诸如“图像中是否有红圈”或“图像中有多少亮点”之类的问题相对容易,但其看似简单的问题如“图像中是否有一只猫”,则要复杂得多。“简单”视觉问题和“复杂”视觉问题之间的区别难以界限。
这一点值得注意,因为对于人类这种高度视觉化的动物来说,上述所有问题都是不足以成为难题,即便是对孩子们来说,回答上述视觉问题也并不困难。然而,处在变革时期的深度学习却无法回答这些问题。
2. 传统计算机视觉V.S.深度学习
传统计算机视觉是广泛算法的集合,允许计算机从图像中提取信息(通常表示为像素值数组)。目前,传统计算机视觉已有多种用途,例如对不同的对象进行去噪,增强和检测。
一些用途旨在寻找简单的几何原语,如边缘检测,形态分析,霍夫变换,斑点检测,角点检测,各种图像阈值化技术等。还有一些特征代表技术,如方向梯度直方图可以作为机器学习分类器的前端,来构建更复杂的检测。
与普遍的看法相反,上面讨论的工具结合在一起可以造出针对特定对象的检测,这种检测性能强,效率高。除此之外,人们还可以构建面部检测,汽车检测,路标检测,在精准度和计算复杂性等方面,这些检测很可能优于深度学习。
但问题是,每个检测都需要由有能力的人从头开始构建,这一行为低效又昂贵。因此,从历史上看,表现优良的探测器只适用于那些必须经常被检测,并且能够证明前期投资是明智的对象。
这些探测器中有许多是专有的,不向公众开放,比如人脸检测,车牌识别器等等。但是,没有一个心智正常的人会花钱编写狗探测器或分类器,以便从图像中对狗的品种进行分类。于是,深度学习就派上了用场。
3. 优秀学生的启迪
假设正在教授计算机视觉课程,在课程的前半部分,要带领学生们复习大量的专业知识,然后留时间给学生完成任务,也就是收集图像内容并提问。任务一开始很简单,例如通过询问图像中是否有圆形或正方形,再到更复杂的任务,例如区分猫和狗。
学生每周都要编写计算机程序来完成任务,而负责查看学生编写的代码,并运行查看它们的效果如何。
一名新生加入了班级。不爱说话,不爱社交,也没有提过什么问题。但是,当提交自己的第一个任务方案时,感到有点意外。这名新生编写的代码让人难以理解,从来都没见过这样的代码。看起来像是用随机的过滤器对每幅图像进行卷积,然后再用非常奇怪的逻辑来得到最终的答案。
运行了这段代码,效果非常好。心想,虽然这个解决方案非同寻常,但只要它有效就足够了。几周过去了,学生们需要完成的任务难度越来越高,也从这名新生那里得到了越来越复杂的代码。代码出色地完成了难度日益增大的任务,但无法真正理解其中的内容。
期末的时候,给学生们布置了一项作业,用一组真实的图片来区分猫和狗。结果,没有学生能够在这项任务上达到超过65%的准确率,但是新生编写的代码准确率高达95%,大吃一惊。开始在接下来的几天中深入分析这些高深莫测的代码。给它新的示例,然后进行修改,试着找出影响程序决策的因素,对其进行反向工程。
最终得出一个非常令人惊讶的结论:代码会检测出狗的标签。如果它能检测到标签,那么它就可以判断对象的下部是否为棕色。如果是,则返回“cat”,否则返回“dog”。如果不能检测到标签,那么它将检查对象的左侧是否比右侧更黄。如果是,则返回“dog”,否则返回“cat”。
邀请这名新生到办公室,并把研究结果呈给他。询问是否认为自己真的解决了问题?在长时间的沉默之后,终于喃喃自语道,解决了数据集显示的任务,但并不知道狗长什么样,也不知道狗和猫之间有什么不同……
很明显,作弊了,因为解决任务目的和想要的目的无关。不过,又没有作弊,因为解决方案确实是有效的。然而,其学生的表现都不怎么样。试图通过问题来解决任务,而不是通过原始数据集。虽然程序运行得并不好,倒也没有犯奇怪的错误。
4. 深度学习的祝福和诅咒
深度学习是一种技术,它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”),就像上面故事中学者学生编写的那些程序一样。这些“程序”和优化技术对世界一无所知,它所关心的只是构建一组转换和条件,将正确的标签分配给数据集中的正确图像。
通过向训练集添加更多的数据,可以消除虚假的偏差,但是,伴随着数百万个参数和数千个条件检查,反向传播生成的“程序”会非常大,非常复杂,因此它们可以锁定更细微偏差的组合。任何通过分配正确标签,来统计优化目标函数的方法都可以使用,不管是否与任务的“语义精神”有关。
这些网络最终能锁定“语义正确”的先验吗?当然可以。但是现在有大量的证据表明,这并不是这些网络分内之事。相反的例子表明,对图像进行非常微小的、无法察觉的修改就可以改变检测结果。
研究人员对训练过的数据集的新示例进行了研究,结果表明,原始数据集之外的泛化要比数据集内的泛化弱得多,因此说明,网络所依赖的给定数据集具有特定的低层特性。在某些情况下,修改单个像素就足以产生一个新的深度网络分类器。
在某种程度上,深度学习最大的优势就是自动创建没有人会想到的特性能力,这同时也是它最大的弱点,因为大多数这些功能至少在语义上看起来,可以说是“可疑的”。
5. 什么时候有意义,什么时候没有意义?
深度学习对于计算机视觉系统来说无疑是一个有趣的补充。现在可以相对容易地“训练”探测器来探测那些昂贵且不切实际的物体。还可以在一定程度上扩展这些检测,以使用更多的计算能力。
但为这种奢侈付出的代价是高昂的:不知道深度学习是如何做出判断,而且确实知道,分类的依据很可能与任务的“语义精神”无关。而且,只要输入数据违反训练集中的低水平偏差,检测就会出现失效。这些失效条件目前尚且不为人知。
因此,在实践中,深度学习对于那些错误不是很严重,并且保证输入不会与训练数据集有很大差异的应用程序非常有用,这些应用能够承受5%以内的错误率就没问题,包括图像搜索、监视、自动化零售,以及几乎所有不是“关键任务”的东西。
具有讽刺意味的是,大多数人认为深度学习是应用领域的一次革命,因为深度学习的决策具有实时性,错误具有重大性,甚至会导致致命的结果,如自动驾驶汽车,自主机器人(例如,最近的研究表明,基于深层神经网络的自主驾驶确实容易受到现实生活中的对抗性攻击)。只能将这种信念描述为对“不幸”的误解。
一些人对深度学习在医学和诊断中的应用寄予厚望。然而,在这方面也有一些令人担忧的发现,例如,针对一个机构数据的模型未能很好地检测另一个机构数据。这再次印证了一种观点:这些模型获取的数据要比许多研究人员所希望的更浅。
6. 数据比想象的要浅
出人意料的是,深度学习教会了一些关于视觉数据(通常是高维数据)的东西,这个观点十分有趣:在某种程度上,数据比过去认为的要“浅”得多。
似乎有更多的方法来统计地分离标有高级人类类别的可视化数据集,然后有更多的方法来分离这些“语义正确”的数据集。换句话说,这组低水平的图像特征比想象的更具“统计意义”。这是深度学习的伟大发现。
如何生成“语义上合理”的方法来分离可视数据集模型的问题仍然存在,事实上,这个问题现在似乎比以前更难回答。
7. 结论
深度学习已经成为计算机视觉系统的重要组成部分。但是传统的计算机视觉并没有走到那一步,而且,它仍然可以用来建造非常强大的探测器。这些人工制作的检测在某些特定的数据集度量上可能无法实现深度学习的高性能,但是可以保证依赖于输入的“语义相关”特性集。
深度学习提供了统计性能强大的检测,而且不需要牺牲特征工程,不过仍然需要有大量的标记数据、大量GPU,以及深度学习专家。然而,这些强大的检测也会遭遇意外的失败,因为它们的适用范围无法轻易地描述(或者更确切地说,根本无法描述)。
需要注意的是,上面的讨论都与“人工智能”中的AI无关。不认为像深度学习与解决人工智能的问题有任何关系。但确实认为,将深度学习、特性工程和逻辑推理结合起来,可以在广泛的自动化空间中实现非常有趣和有用的技术能力。