学术--读书笔记：《AI 3.0》--机器学习存在的问题 vs 人类学习

作者：梅拉妮·米歇尔

简介：机器学习的问题：1. 过拟合；2.缺乏可靠性和透明性，及其易受攻击性；3.缺乏常识；4.环境复杂和不可预测。总的来说，人工智能领域最重要的开放问题是：如何系统的获取抽象能力、“域泛化”（domain generalization）能力，以及迁移学习能力。人类拥有的知识、抽象和类比，是应赋予人工智能的核心

人工神经网络的发展历史

感知机：
- 感知机设定正确的权重和阈值呢？罗森布拉特给出了一个受大脑启发的答案：感知机应该通过自己的学习获得权重和阈值
- 罗森布拉特受到了行为主义心理学家伯勒斯·斯金纳（Burrhus F. Skinner）的启发，（斯金纳通过给老鼠和鸽子以正向和负向的强化来训练它们执行任务），罗森布拉特认为感知机也应该在样本上进行类似的训练：在触发正确的行为时奖励，而在犯错时惩罚。如今，这种形式的条件计算在人工智能领域被称为监督学习（supervised learning）
符号人工智能：深度学习的成功
- 研究人员发现，编写规则的人类专家实际上或多或少依赖于潜意识中的知识（常识）以便明智地行动。这种常识通常难以通过程序化的规则或逻辑推理来获取，而这种常识的缺乏严重限制了符号人工智能方法的广泛应用。
- word2vec方法“通过与一个单词一同出现的词来认识它”。可以应用与其他方面，包括社会。多伦多大学的一个团队将这些语句称为“思维向量”（thought vectors），还有人尝试过用网络将段落和整个文档编码为向量，然而结果都是成败。
- 自然语言处理相关的研究在最初的几十年集中在符号化的、基于规则的方法上，就是那种给定语法和其他语言规则，并把这些规则应用到输入语句上的方法。这些方法并没有取得很好的效果，看来通过使用一组明确的规则来捕捉语言的微妙是行不通的。自动语音识别是深度学习在自然语言处理中的重大成就
强化学习
- 深度学习在近年来的成功与其说是人工智能的新突破，不如说要归功于互联网时代极易获得的海量数据和并行计算机硬件的快速处理能力。这些因素加上训练方法的改进，使得数百层的网络在短短几天内就能完成在数百万张图像上的分类学习
  强化学习：假设网络在当前迭代的输出比上一次迭代的输出更接近于正确值，然后，通过反向传播学习调整网络权重，从而使得当前与先前迭代输出之间的差异最小化。理查德· 萨顿是这种方法的鼻祖之一，他把该方法称为：从猜测中学习猜测。我把它修改为：从更好的猜测中学习猜测。简而言之，强化学习不是将其输出与人类给定的标签进行匹配，而是假设后续迭代给出的值比前面迭代给出的值更好，网络学习的是使其输出在一次迭代到下一次迭代的过程中保持一致。这种学习方法被称为时序差分学习（temporal difference）
- DNN这种“从数据中学习”的方法已被逐渐证实比“普通的老式人工智能”策略更成功，老式人工智能使用的是人类程序员对智能行为构建的显性规则。然而，与某些媒体报道的情况恰恰相反，ConvNets的学习过程与人类的学习过程并不是很相似
- 虽然ConvNets使用反向传播算法从训练样本中获取参数（即权重），但这种学习是通过所谓的超参数（hyperparameters）集合来实现的，超参数是一个涵盖性术语，指的是网络的所有方面都需要由人类设定好以允许它开始，甚至“开始学习”这样的指令也需要人类设定好。超参数包括：网络中的层数、每层中单元感受野的大小、学习时每个权重变化的多少（被称为“学习率”），以及训练过程中的许多其他技术细节。设置一个ConvNets的过程被称为“调节超参数”，这其中需要设置许多参数值以及做出许多复杂的设计决策，而且这些设置和设计会以复杂的方式相互作用，从而影响网络的最终性能。此外，对每个新的训练任务，网络的这些设置和设计必须被重新调整。
- 2017年参加的一次会议中，微软前执行副总裁、人工智能产品组负责人沈向洋向与会者讲述了微软为招聘年轻的深度学习工程师所付出的努力：“如果一个年轻人了解如何训练5层神经网络，他可以要求5位数的年薪。如果这个年轻人懂得如何训练50层神经网络，那么他可以要求7位数的年薪。” 祝贺这位即将变得富有的年轻人，因为目前神经网络还无法自学超参数。、
AlphaGo：
- 使用蒙特卡洛树搜索，黑子只前瞻每一种行棋方式可能产生的棋局序列中极小的一部分，并对这些棋局序列的输赢次数进行统计，然后，根据这个结果来为每种可能的行棋方式打分。
- AlphaGo使用一个训练过的ConvNets来为当前棋局中所有可能的行棋方式分配一个粗略值，然后蒙特卡洛树搜索使用这些值来启动它的搜索，也就是说蒙特卡洛树搜索不用再随机选择初始行棋方式，而是根据ConvNets的输出值来判断哪一初始行棋方式是最优的。想象一下，你是正在注视着一个棋局的 AlphaGo，在你开始为当前棋局执行蒙特卡洛树搜索的走子演算时，ConvNets会在你的耳边悄悄告诉你，当前棋局中的哪一步走法是最好的。蒙特卡洛树搜索的结果又能反馈到对该ConvNets的训练中。设想一个经过一次蒙特卡洛树搜索的AlphaGo，搜索的结果是分配给它的所有可能行棋方式的新概率——基于执行走子演算期间所有可能行棋方式导致胜利或失败的概率，这些新概率现在通过反向传播来校正ConvNets的输出。随着对弈的进行，会产生一个又一个新的棋局，然后上述过程不断重复。从原则上说，ConvNets将会通过这一学习过程学会辨识局势，就像围棋大师一样。最终，ConvNets将在AlphaGo中发挥直觉的作用，这种直觉的实际效果会进一步被蒙特卡洛树搜索。AlphaGo和塞缪尔的西洋跳棋程序一样，通过许多局（约500万局）自我对弈来进行学习。

机器学习的问题

1. 过拟合；2.缺乏可靠性和透明性，及其易受攻击性；3.缺乏常识；4.环境复杂和不可预测。抽象能力、“域泛化”（domain generalization）能力，以及迁移学习能力，如何使系统获得这些能力仍然是人工智能领域最重要的开放问题

机器学到的是它在数据中观察到的东西，而非我们人类可能观察到的东西。如果训练数据具有统计性关联，即使这些关联与机器要解决的任务无关，机器也会很乐意学习这些内容，而不是学习那些我们希望它学习的内容。如果机器在具有相同统计性关联的新数据上进行测试，它将表现得像是已经成功地学会了如何完成这一任务；然而，机器在其他数据上运行可能会出乎意料地失败，就像威尔的网络在无模糊背景的动物图像上的表现一样。用机器学习的术语来说，威尔的网络“过拟合”（overfitted）了特定的训练集。因此无法很好地将其学到的知识应用到与训练集特征不同的那些图像。
人们对超级智能可能带来的风险给予了太多关注，而对于深度学习缺乏可靠性和透明性，及其易受攻击性的关注则远远不够。与监督学习系统一样，深度Q学习系统极易受到对抗样本的攻击。
立场的不同：在6项亚马逊土耳其机器人参与的研究中，购买者认同牺牲乘客以获取更大利益的自动驾驶汽车，并希望其他人会购买它们。但作为乘客他们更愿意乘坐那些不惜一切代价保护乘客的自动驾驶。在将我们的价值观植入机器之前，我们必须弄清楚如何让我们的价值观清晰且一致。
在赋予计算机“道德智能”方面的进展不能与其他类型智能的进展分开，真正的挑战是创造出能够真正理解它们所面临的场景的机器。换句话说，可信任的道德理性的一个先决条件是通用的常识，而这即使在当今最好的人工智能系统中也是缺失。
强化学习：强化学习的实践者几乎都会构建机器人和环境的模拟，然后在模拟世界而非在现实世界中执行所有的学习片段，我们都是这样来处理这个问题的，有时这种方法很有效。机器人已经使用模拟训练学会了行走、跳跃、抓取对象、驾驶一辆远程控制汽车，这些机器人能够在不同程度上成功地将在模拟世界中学到的技能转移到现实世界中。然而，环境愈复杂和不可预测，将机器人在模拟中学到的技能转移到现实世界的尝试就愈加难以成功。由于这些难点的存在，迄今为止强化学习最大的成功不是在机器人领域，而是在那些能够在计算机上进行完美模拟的领域，如游戏。
这些深度Q学习系统已经在某些细分领域上取得了超人类的表现，甚至展现出了类似人类直觉的特性，但是它们缺乏一些对人类智能而言非常基本的东西，比如抽象能力、“域泛化”（domain generalization）能力，以及迁移学习能力，如何使系统获得这些能力仍然是人工智能领域最重要的开放问题

人类学习

类比：对抽象事物的感知以及类比是人类擅长的，但到目前为止，还没有特别成功的人工智能算法来实现这种无监督学习。
常识：人类具有一种当前所有的人工智能系统都缺乏的基本能力：运用常识。我们拥有关于这个世界的体量庞大的背景知识，包括物质层面及社会层面。我们对现实世界中的事物会如何行动或变化有充分的了解，无论它是无生命的还是有生命的，我们广泛地运用这些常识来决定如何在特定情况下采取特定行为
人类对抽象概念的理解是通过基于核心物理知识的隐喻来实现的。莱考夫和约翰逊引用了大量的语言示例来证明他们的论点，展示了我们如何用具体的物理概念来概念化诸如时间、爱、悲伤、愤怒和贫穷等。类似地，我们还会将诸如快乐和悲伤等情绪状态概念化为物理学中的方向的概念，如“上”和“下”。例如，“情绪低落”并“陷入沮丧”；“一落千丈”；“提起精神”。
不管一个人感受到的是身体上的温暖还是社交上的“温暖”，激活的似乎都是大脑的相同脑区
抽象与“做类比”（analogy making）密切相关。侯世达几十年来一直研究抽象和做类比，在一种非常一般的意义上将做类比定义为：对两件事之间共同本质的感知。
知识、抽象和类比，赋予人工智能核心

自动驾驶：仅允许自动驾驶车辆在建造了确保车辆安全的基础设施的特定区域内行驶。我们通常将这一解决方案称为“地理围栏”（geo-fencing）。福特汽车公司前自动驾驶车辆总工程师杰基·迪马科（Jackie DiMarco）是这样解释地理围栏的：当我们谈论4级自动驾驶时，我们指的是在一个地理围栏内的完全自动驾驶，在该区域内我们有一个定义过的高清地图。一旦拥有了这张地图，你就能了解你所处的环境，你能够知道灯柱在哪里、人行横道在哪里、道路规则是什么、速度限制是多少等信息。我们认为车辆的自动驾驶能力能够在一个特定的地理围栏中成长，并且会随着新技术的加入而得到进一步的发展。(博主：很靠谱，可见的未来自动驾驶就是这样的)

posted @ 2021-06-03 08:54 Engineblogs 阅读(539) 评论(0) 收藏举报

刷新页面返回顶部