人工智能中的“五大门派“

美国的佩德罗·多明戈斯写了一本书《The Master Algorithm》，中文名为《终极算法》。多明戈斯是华盛顿大学的终身教授，也是一位在机器学习领域具有20 年研究经历的资深科学家，一直致力于融合各种机器学习算法的优势，提出一种可以解决所有应用问题的通用算法，即终极算法。这本书也进入了16年比尔盖茨的推荐书单，书中介绍了人工智能中典型的几种“门派”。

他提到平常我们的知识来自三个方面：

进化：存储在你的基因（🧬）中
经验：存储在人的大脑神经元
文化：从周边的人和事物中学习

这三种方式，每一种都比前一种包含的信息量大，而且学习速度更快。但是如今出现了第四种学习方式：计算机。计算机能帮助我们发现一些知识。Yann LeCun，甚至说：“未来大部分知识都会被机器提取出来，也会存储在机器里”。可见未来机器学习会越来越重要。

让计算机学习的方法大致有五种，而且每个领域有一个主算法。

1. 符号派

符号派的灵感来源于逻辑学、哲学。一定程度上来说，是最“计算机科学”的，他们的目标是填补已有知识中的空缺部分。他们的工作跟科学家的工作模式类似：做大量观察，然后提出假设来解释他们，通过后续的论证来看是合理的或者不合理的。

自1955年人工智能(Artificial Intelligence) 被正式提出以来，符号派就存在了，如上所述，都是基于规则的系统，丝毫没有“学习”的能力。

这个门派的主打算法是反向推论(Inverse Reduction)：通过已经收集的数据来创建一些规则，然后用规则来推断将来要发生的事情。然而这个理论有个非常明显的缺陷，你知道在哪里吗？

2. 连接派

连接派是在上个世纪80年代涌现，灵感来源于模拟人脑：它通过模拟人脑的工作方式来让机器获得知识。人脑会存储数据，通过每天不断获取新的数据来积累学习。这些记忆的数据的权重各不相同，而且当再次被使用到时会被加强。

这种算法的问题是人脑非常复杂，想要完整模拟出人脑算法还有非常长的路要走，需要依赖于基础学科的突破。

链接派的主打算法是神经网络，其中的分支深度学习(Deep Learning)如今在图片和视频领域发展非常迅速，应用很广泛。有很多框架可以支持神经网络分析，包括 Pytorch，TensorFlow、Caffe 和百度 Paddle 等。这些框架的工作原理都类似：通过迭代分析大量样例数据来使用分层的方式发掘数据中的特点，把结果从一层传递到下一层做下一步分析。每一层能从数据中解析出更复杂、抽象的特点。

神经网络的问题之一是需要大量标注好的数据来训练算法，有一些场景下这是不可能做到的。其中用到的反向传播技术，被诟病的是找到的是“好”的方案而不是“最佳”方案，因为它找到的是局部而非全局最优解。

3. 进化派

一定程度上说进化是一个比人脑更大的学习算法，因为：

它创造了人脑
它创造了地球上其他生物形态

所以值得探究它到底是如何工作的，然后在计算机上实现它。

进化派希望在计算机领域模拟出进化过程：让自然选择，适者生存，犹如达尔文观察到的那样。其过程是一次（一代）运行数以百万个不同的解决方案/算法，其中结果最好的方法保留到下一代。下一代里通过把上一代算法结合到一起来创建一个新的算法。这种每一代都有变化的方式会让我们一步步逼近解决问题的理想算法。

进化派的主打算法是基因编程 (Genetic Programming)。这种算法的缺点是一个算法产生后，只能等待下一代时才能产出一个更好的算法。

4. 贝叶斯派

贝叶斯派来源于概率统计领域，想系统地减少不确定性。

其实人类学习到的知识并不是一成不变的，它是不确定的在动态变化的。当我们从数据中推理出一些东西，是无法完全确定就是这样的。所以学习的方法变成通过使用概率来量化不确定性，当你看到了更多的证据，那不同假设的概率就在随之调整，证据越多的概率越高。其中方法之一就是大名鼎鼎的贝叶斯理论。

好处是不需要大量的数据集，而且研究院也更容易理解和解释训练结果和机器决策过程，甚至可以调整结果。一些使用贝叶斯技术的试验在识别物体方面也有好的结果。

5. 类比派

这个学派主要源于心理学，使用的是最简单，最直观的方式：通过类比来推理。心理学中有大量证据表明人类就是这样做的：当你面对一个新问题，你会从已有的经验中找到与之类似的情况，然后把解决方法拿过来解决现有问题。

主打算法是内核机器 (Kernel Machines)，比如支持向量机(Support Vector Machine)是其中算法之一，它是一种 Kernel 技巧，能把本来非线性的分隔问题影射到线性平面。

其实除了上述五大门派，还有人在 ycombinator 上总结了机器学习里的其他各大门派。如果对这本书感兴趣，可以在youtube上看作者16年在Google的演讲。

参考资料：

欢迎关注我的微信公众账号，会在第一时间更新，博客园上只有部分文章会发布

code

posted on 2020-09-09 20:11 生栋阅读(1961) 评论(0) 编辑收藏举报

刷新页面返回顶部

生栋说