《我们如何学习:大脑为何(暂时)比机器学得快》笔记
一、引言
这是一本关于如何学习的书。我们每个人都有天生的学习能力,所以都能学习,但是学习了如何学习,能让我们更聪明、更高效地学习。
迪昂这本新书的特色恰恰是学习的底层原理。他结合了脑神经科学、认知心理学和计算机科学,告诉我们有关学习的最新研究进展。他提出了四个学习原则,这些原则我们早就知道了,但是了解了底层原理,你就会更加坚定、也会更灵活地运用这些原则。
我希望每个人都成为学习专家。要理解学习,你必须了解大脑。
大脑是一台神奇的学习机器。你可能听过一个词叫“大脑的可塑性”(Brain Plasticity,也叫 Neuroplasticity),大脑非常……皮实。一个孩子三岁的时候头部中弹,导致全身瘫痪并且彻底失明,但他的语言天赋却完全不受影响,七岁就会好几种语言,还出版了自己的小说,还自己画了插图!他根本没见过“山”是什么样子,但是他能想象出来。
这是什么样的学习能力。迪昂列举了很多这样的案例。一个从十一岁起双目失明的孩子长大后成了著名数学家,而且研究的是代数几何:你不用眼睛看能做几何题吗?一个被切除了大脑的整个左半球的孩子可以创作出非常厉害的绘画。一群从小被扔进孤儿院与世隔绝的孩子,长大之后也和正常人一样……你说作为家长还有什么可担心的。
可是在另一方面,有时候大脑因为一个小小的损伤,就会失去重要的学习功能。有好几个人在创伤后发现自己不会阅读了,对眼前的文字怎么看都不认识,然后不管多么努力地训练,阅读速度都比不上一个幼儿园小孩。
这本书的主题就是怎么才能把大脑用好。好消息是我们的大脑都差不多,基本原理是一样的,书中的知识适用于每一个人。
咱们先强调一个最关键的原理:有些知识是天生的。
这个道理在爱德华·威尔逊《创造的起源》书中提过,叫做“先备学习(prepared learning)”。科学家的最新认识是大脑不是白板,小孩刚出生,就已经预装了很多知识。对光线和声音怎么反应,关注语言,害怕危险的东西,这些事儿不用专门学,都已经写在基因里了,天生就会。
但是不能什么知识都预装。首先装不下,人的 DNA 全部的信息、包括把各种冗余都算上,只有750M,相当于一张老式 CD 的大小,真存不了太多东西。更重要的是,把大部分知识留到出生以后学习是更好的策略,因为你不可能事先完全知道到时候能用上哪些知识。
连最简单的线虫都有学习能力:它能适应环境变化,它能记住各种线索去找到营养丰富的地方,并且在路上避开有它不喜欢的气味的地点。
人就更擅长学习了。相对于需要学习的知识而言,我们大脑的“容量”几乎是无限的。我们有最大的学习潜能,学习对我们的影响也最大,不同的人因为学习而产生的差距也最大。能在青少年时期用十几年的时间专门受教育,这是现代人的特权。这种系统性的教育让你的短期记忆力比从来没有受过教育的人高出一倍。你每多受一年教育,平均智商就能提高几分。学习不但是你不断适应新环境的关键手段,而且能把你变成不一样的人。
但不管怎么学,都别忘了我们也是一种生物。先天预装知识和后天学习相配合这个机制,对我们非常重要。
迪昂这本书中有个逻辑我觉得特别有意思,也许可以叫做“反向仿生学”。
上世纪八十年代,计算机科学家有感于传统算法做人工智能不行,转向人脑学习,这才搞出了神经网络算法。现在神经网络有个更时髦的名称叫“机器学习”,是一切 AI 基础。计算机科学家在这个基础上发明了各种策略和方法,其中也是不断地在借鉴人脑,他们非常关注脑科学的进展。可以说 AI 是对大脑的仿生学。
但是教学相长,脑科学家也非常关心 AI 算法的进展,也从 AI 中悟出来了很多道理。有时候计算机科学家独立发明一个能提高机器学习效率的新方法,结果脑科学家一看好像人脑也是这样的……这就是反向仿生学。
这个道理是大脑也是一个神经网络。有时候你和一个跟自己相似的东西对照,更能看清自己是怎么回事儿。大脑的一些基本学习原理跟 AI 相同,高级的原理比 AI 高得多,这一章咱们先说相同点。
- 1、模型
所谓学习,迪昂说,本质上就是训练我们大脑内部的模型。
模型是真实世界在你头脑里的一个缩影。这个缩影不可能完全再现真实世界,但它应该包含真实世界最关键的特征,它能用于解释、甚至预测真实世界。大脑和 AI 都是神经元的网络,所以模型无非都是神经元的连接结构和连接强度,可以用一系列参数表示。
学习就是训练模型,就是通过和真实世界互动,用数据的反馈来调整那些参数。
- 2、分层
神经网络模型是分层的。比如学语言,不管是小孩学说话还是 AI 学语音识别,最底层都是识别音节,是简单的声音。往上一层是字词,再往上是语法,帮你连成句子,再往上一层是意思……每一层有每一层的规律。
在机器学习领域,分层是一个重大进步,分层的神经网络就叫“深度学习”网络。
- 3、监督学习
怎么训练模型的参数呢?最简单的方法就是随时提供有效的反馈。
比如你练习射击。你打了一枪,一看靶子,发现你瞄得太往上了,子弹偏离了靶心 5 厘米。这就是两个关键的反馈信息,一个是偏离的程度,一个是偏离的方向。那么下一枪你就根据这两个信息调整,稍微往下瞄一点。如果第二枪的结果是向下偏离靶心 2 厘米,那你就以更小的幅度再往上调整一点。
在机器学习领域,这叫做“有监督式学习(Supervised Learning)”。神经网络每做一个动作都会收到这么好的反馈:既知道差了多少也知道差的方向是什么,然后下一步就明确知道该怎么对参数进行微调。当然学习射击比较容易因为只有几个参数,复杂的学习需要调整的参数就太多了,要有极多的训练数据,但是原理是一样的。
反馈,是学习的关键。
- 4、“任意的震动”
机器学习中,有时候你通过一系列反馈很快就找到了一个最优解,但是你不能确定它是不是全局的最优解。你只搜索了一个局部,也许别处还有更好的东西你没发现。计算机科学家的办法是故意给学习加入一些随机的变化,就好像生物演化中的基因突变一样,也许就能收获惊喜。
大脑学习也应该这样。你得博览群书开卷有益积极探索,时不时跳跃到别的地方看看。
- 5、无监督学习
有老师手把手地教,每一步都给反馈当然好,那要是没有老师怎么办呢?也许更好。当初 DeepMind 公司出的 AlphaGo 和 AlphaZero,都不是跟围棋教练学的下棋,它们使用的是“无监督学习(unsupervised learning)”算法。
无监督学习只有一个外部反馈,那就是最终这盘棋你是赢了还是输了。中间哪一步你走的对不对,没有人告诉你。
那这棋怎么学呢?你必须自己给自己提供反馈。无监督学习算法会分出两个角色来,一个是批评者(critic),一个是行动者(actor)。批评者的任务是根据以往的对局经验,随时评估当前局面的胜率大小。比如你的地盘很大,它就能感觉到你取胜的概率大。行动者则是根据批评者的评估意见试探下一步走法:如果批评者说走这里胜率会降低,行动者就换个地方……
我们大脑有时候也是这样学习的。小孩学走路,大人并没有告诉他每一步腿迈的对不对 —— 他自己摔倒过几次就有经验了,知道走成什么姿势容易摔倒,然后就会避免走那个姿势。
- 6、抓住本质
机器学习的模型是不是参数越多越好呢?不是。参数太多会让你陷入“过度拟合”。就好像上数学课,你学解题学的是套路的一般性,而不是那些例题里特殊的细节。你既要善于学习,也要善于忽略,才能抓住本质。
- 7、内在知识
机器学习中有一个很厉害的算方法叫“卷积算法”,这个算法被创造出来后,一下子就把计算机图形识别的能力提高到了实用水平。卷积算法的关键是它并不是在一无所知的状态下看图:它已经对所有的图形都有一定的了解,能够识别一些最基本的图案,比如线条、圆圈、斑点等等。新的图形在它眼中都是已知图案的组合。它善于运用自己的“内在知识”。
大脑的学习也是如此。你从来都不是“从零开始”学什么东西,你总是把新知识看做旧知识的组合。我们出生之前,基因就已经告诉我们如何识别声音和光线,所以接下来的语音和人脸识别都是在更高的层面上进行的,所以才学的那么快那么自然。
通过审视机器,我们也能审视自己的学习。
- 你的基础知识学扎实了吗?
- 你是把失败当做反馈还是把反馈都当做失败呢?
- 你做事的时候内心有个“批评者”吗?
- 你的批评者会影响你的情绪吗?
- 你喜欢新东西吗?
二、规则和假设
人工智能到底哪点不如人?
不管你是做技术的,还是从事其他行业的,相信你已经看过太多的利弊分析了。尼斯拉斯·迪昂从“学习”这个角度说,机器学习对人脑的仿生仅限于表层。
诚然,AI 图像识别现在很强。但图像识别是人脑的一个非常肤浅的功能。看见一张图片,你找到其中的物体,把它们分类,这一切只要几十分之一秒,而且是无意识的。AI 能下围棋,但本质也是靠模式识别,它无非计算速度更快、能记住的局面更多而已。模式识别能让 AI 看起来很像是专家,但是它不是真的专家。凡是我们有意识的思维,比如逻辑推理和抽象概括这种”慢“的思维方式,AI 统统不行。
我给你举个例子。现在有些 AI 对话程序号称已经接近通过图灵测试。比如它可以扮演一个心理医生跟你聊天。你说我最近心情不好,它会问你是不是压力太大了?你说是的,它就会接着问你是工作原因还是感情原因?听起来很像真人……这种对话也能让你感到安慰,其实都停留在表面。我有个让对话深入进行的主意,你应该给它出道题:
咱们用符号 @ 代表一种四则运算,已知 1@2=3,2@9=11,那你能不能猜一猜,100@1 等于几?
任何一个成年人都能猜到 @ 代表加号,所以 100@1=101。但是这对 AI 来说可是太难了:它涉及到猜测一个规则然后应用一个规则。
所谓“深度学习”,恰恰是浅度学习。
0x1:人脑的学习优势
迪昂列举了人脑相对于机器学习的六个优势,都属于我们平时自己觉得挺简单,而对 AI 特别难的操作。
- 第一是抽象概念字母 A 是什么样的?
下面所有这些字体表现的 A ,你都能轻松认出来 ——
笔画粗点细点、是直线还是曲线、扭曲一下或者增加点修饰,不管怎么变,你都知道它是 A:因为你抓住了 A 的本质。
再比如说椅子,不管是三条腿还是四条腿,什么颜色什么材质,你都知道它是椅子,因为你抓住了椅子内在抽象的概念,你理解椅子的精髓。
AI 没有这个能力。现在欺骗 AI 已经是一个热门活动,在香蕉旁边放一个小小的干扰,AI就把它识别成了……烤面包机 [1]。
- 第二个优势是人的学习速度非常快,而训练 AI 需要海量数据
AlphaZero 确实厉害,什么游戏它学到最后都能比人打得好,但是请注意,它初期的学习速度可是比人慢得多。AI 全靠自己瞎摸索。而人,你只要给他讲讲大概的规则,他一上来就能打的很有章法。
再比如学语言,一个法国孩子每年大概听父母跟他讲 500-1000 个小时的话,这点训练就足够让他几年之内熟练掌握法语。而如果是 AI,要粗略地掌握一门人类语言,它需要多几十倍的训练量才行。
- 第三个优势是人很容易传递知识
你买个烤面包机,自己看说明书学会了怎么用,然后给你妈妈也买了一个。她收到之后你给她打电话,三言两语就能教会她怎么用。AI 没这个能力。机器学习的所有知识都体现在神经网络里的那些参数上,参数本身没有意义,AI 说白了就是一个黑箱。
- 第四是人有时候用一个例子就能学会
比如我教你一个新词,purget,意思是“忘记”,比如“我purget吃饭”就是“我忘了吃饭”。这就可以了!你马上就能用这个词造各种句子……而 AI,没有这种把新东西加入旧知识的能力。
- 人脑的第五个优势是最关键的,那就是人拥有一个“思想语言(language of thought)”
这是一种内在的逻辑语言,能让我们进行推理。
迪昂喜欢的例子是这样的。我们知道对任何一个数字,你总可以把它加1,变成下一个数字,那么根据这一点,你就可以推导出来,世界上并没有一个“最大的数字”:不管哪个数字+1之后都有一个更大的数字 —— 你就有了“无穷大”的概念。可能本来你不知道什么叫无穷大,但是自己这么一推导,你就知道了。
思想语言让我们能用有限的词汇去组合出无穷多的新概念。这是只有人才有的能力,其他所有动物都不具备,AI 更不会。
- 第六个优势是我们能够把几个技能组合起来去做一件全新的事情
我学会了加法和英语,下一步我就能检查英文账单。人脑会把技能迁移到新的场景。对比之下,AlphaGo 下围棋只会标准的 19×19棋盘,你要是临场建议咱们下 15×15 的吧,它不会下。
0x2:人脑为什么这么厉害呢?
你看这是不是也属于“百姓日用而不知”的智慧。
妈妈领着女儿在公园里玩,看到花丛中有一只蝴蝶,妈妈说“看,蝴蝶”。就这一句话,女儿就记住了。下次再看见蝴蝶,她就知道这是蝴蝶。请问她是怎么学会的呢?
从 AI 的视角考虑,这可太难了。当你说蝴蝶的时候,眼前有各种各样的东西:有花、有树叶、有泥土、有空气、有天空,孩子是如何知道哪个是蝴蝶的呢?而且“蝴蝶”为什么一定是个物体?它也有可能是一种颜色、一个动作或者一种性质:也许妈妈的意思是说这个花盆有旋转对称性!孩子怎么就学会了“蝴蝶”呢?
还有一些更抽象的词,比如“思考”“自由”“相信”,孩子是怎么学会的呢?AI 做图形识别可以,可你怎么训练才能让 AI 识别“自由”?还有,“我”这个字是什么意思,孩子是怎么知道“我”指的是说话者本人、而不是某个特定的人的呢?
你得是一个认知科学家,拿孩子做过各种实验,才能略知一二。
迪昂认为,人脑学习的优势,关键在于两个能力。一个是规则,一个是假设。
1、规则
先说规则。稍微用一点规则,学习就能大大加快。你别看很多家长和老师抱怨孩子不遵守规则,让他们按流程做个数学题都很难,其实每个孩子都在暗中掌握和运用规则。迪昂列举了孩子的几个学习规则。
- 第一个规则是尽量选择最简单、最小的假设。妈妈指着小狗跟孩子说,“dog”。站在孩子的视角,这个词可能有两种含义。是所有的狗都叫dog,还是这只小狗的名字叫dog?你跟小孩说第一遍的时候,他并不知道,但是他会默默记住这两个假设。换一个不同的场合,你指着另外一只狗,跟小孩说 dog,小孩马上就明白了 dog 指的是所有的狗 —— 他没有再猜测别的可能性,比如说 dog 是不是特指公狗或者比较小的狗?他先采纳最简单的假设再说。
- 第二个规则是注意力。当一个人谈论什么东西的时候,他的注意力一定是在这个东西上。妈妈说蝴蝶的时候,要么她会用手指着蝴蝶,要么就看着蝴蝶,所以孩子知道“蝴蝶”是在说什么。科学家怎么知道孩子会使用这个规则呢?实验室里,给孩子手里拿一个他从来没玩过的玩具,比如一个潜水艇模型。老师对孩子说“潜水艇!”孩子就知道那个新玩具叫潜水艇。但如果不是老师冲着这个孩子说,而是头顶上的广播里说了“潜水艇”,孩子就不会意识到那个玩具叫潜水艇,也就学不会这个词。
- 第三个规则是在“这个”、“那个”、“the”这些冠词之后跟着的,总是名词。连 12 个月大的婴儿都能运用这个规律。你每次说 the,他就知道后面跟着的一定是个东西,而不是一个动作。
- 第四个规则是通常情况下,两个不同的词不会指代同一个东西。地上有很多玩具,其中只有一个新玩具是孩子没见过的。你对孩子说“把那个 kekeke 拿给我!”他没听过“kekeke”这个词(其实是你编造的一个词),但是他会把那个新玩具拿给你,因为他知道其他玩具的名称都不是“kekeke”。
有些聪明的狗能听懂几百个单词,这个拿玩具的测试,连狗都能通过……而 AI 还做不到。
还有很多别的规则。现在人们也在研究让 AI 基于规则学习的方法。在朱迪亚·珀尔的《为什么:因果关系的新科学》的书中提到,AI 也在学习因果关系,只是所有这些努力都还很初级。
那人脑是怎么知道这些规则的呢?有些肯定是天生的,婴儿一出生就已经知道一些“关于规则的规则”,也就是“元规则(meta-rules)”,甚至一些“元规则的元规则”。但更多的情况,是我们自己在大脑里先创造规则,再去验证规则。这就涉及到大脑的第二个关键能力,也就是假设和检验。
2、假设
提出假设然后验证假设,这是科学家的工作方法,也是我们常说的“贝叶斯方法”。
贝叶斯方法讲究“观点随着事实发生改变”,那这个观点是从哪来的呢?是你自己假设出来的。面对一件事情,大脑会假设几个规则,然后通过观察去验证哪个规则成立的可能性更大。
比如你在聚会上遇到一个人叫小王,你发现他不怎么说话。小王是什么情况?你提出了几个假设:他性格比较内向,他是个哑巴,或者他不会说中国话。然后你观察他,你跟他说了一句话他好像听懂了,那就应该弱化“他不会中文”这个假设。
婴儿就是这么学习的。我们专栏多次提到过一位发展心理学家叫艾莉森·高普尼克(Alison Gopnik),她经常鼓吹婴儿都是科学家,是贝叶斯方法专家。孩子们猜测规则,验证规则,就掌握了规则。
迪昂认为,人脑的学习过程是下面这三步,
- 第一,使用思想语言创造各种假设的规则;
- 第二,在实践中验证这些假设,找到最可能的规则;
- 第三,用这个规则去学习。
这就是为什么人脑学习得那么快。你要认同他这个理论,那人脑可就太厉害了。迪昂据此有一个惊人的推断,每个人一出生,其实已经掌握了所有的知识。
为什么这么说呢?因为你可以用思想语言自行推导所有的假设,你可以做各种各样的猜测,剩下的只不过是调整那些猜测的可信概率而已。
这就如同把头脑健全的你穿越到一个外星球,那里的办事规则和地球完全不同,但是你知道一点:那里的人办事也是有规律的,因为没规律我们就谈不上学习了。而就凭这一点,你就等于知道了那个世界的全部。你可以假设各种各样的规则,再一个个去验证,把可能性低的假设排除掉。
所以学习的本质不是做加法,而是做减法。世界上并没有什么新东西,你已经都会了,你要做的只是验证……
三、宝宝自身具足
我们说人一出生大脑中就已经储备了一些知识,这个观念是有点反直觉的。直到 20 年之前,也就是 2000 年左右,很多科学家还认为刚出生的大脑是空白的、神经元没有特别的结构。今天这个观念已经完全扭转过来了。
为什么反直觉呢?因为我们总觉得知识是一种软件,总是得通过学习才能“印”在大脑中……但是你要知道,“印”并不是什么神秘的过程:人体所有东西都是以硬件形式实现,知识无非是大脑神经元的连接。那既然是硬件,当然就可以遗传设定。如果 DNA 已经储存了身体的各种细节信息,心脏的形状、十个手指的长短、眼睛的颜色,为什么就不能把大脑的结构也事先设定好呢?
事实上,最新的研究证明,婴儿的大脑已经具备跟成年人大脑一样的结构。
这就涉及到《我们如何学习》这本书作者斯坦尼斯拉斯·迪昂的本行了。迪昂和他的妻子和同事们是研究婴儿大脑的先锋。他们是第一批使用功能性核磁共振扫描婴儿大脑的科学家,他们还做了各种各样的实验,得到了让我感到有点吃惊的结果。
迪昂等人证明,婴儿一出生就已经自带一些关于物体、数字、人和语言的“隐形知识(invisible knowledge)”。可科学家是怎么知道的呢?婴儿连话都不会说,你不能问他们更不能考他们……科学家有两个办法。
一个办法是观察眼睛。你要是看到一个怪异的东西,让你感到很意外,你就会很注意这个东西,你会盯着它多看一会儿 —— 婴儿也是这样。科学家用仪器精确跟踪婴儿的眼睛,测量他在凝视哪个方向,和凝视时间的长短,以此来判断婴儿对一件事情的意外程度。
对于正常的现象,比如一个小球在地上滚动,婴儿看几眼就不看了,可能他也觉得很无聊。但是如果科学家给他变个小魔术,比如一个小球在屏幕上突然消失然后又突然出现,婴儿就会长时间地盯着看,说明这让他感到了意外!
那你说婴儿有没有知识?你得知道什么是正常,才知道什么是不正常。如果这个宝宝能看懂魔术,感到意外,就说明他知道世界原本应该如何运行。
第二个方法是用功能性核磁共振直接实时扫描大脑的活动。这个技术现在很成熟,而且对人体无害。比如婴儿一出生,医生当天就会测试一下他的听力是否正常:在左右两边耳朵分别弄一个声音,如果他能听到,大脑会有明显的相关活动。
所以科学家拿婴儿还是有办法的。我们这一讲中要说的婴儿都在一周岁之前,有的甚至是刚出生几个小时就成了实验对象……而你会看到,他们非常聪明。
咱们说几种实验证明的、婴儿会的知识。
- 第一个知识是物理学
不是广义相对论那种物理学,生活中也有物理学。刚出生几个月的宝宝已经知道世界是由各种物体组成的,物体需要满足一定的物理学:比如说物体不会自己动,你推它才会动;物体会在空间占据一定的位置,而且每次只会占据一个地方,不会同时在两个地方出现;物体不会突然消失,等等。
科学家的做法是用一个屏幕演示物体的运动。比如一个球在屏幕上做直线运动,婴儿看一会儿就不看了。但如果这个球突然消失,然后在屏幕另一侧突然出现,这显然是个怪异的事情,不符合日常物理学,婴儿就会感到意外,就会一直盯着那个球看。
这种实验有时候搞得很高级。科学家用挡板把一根棍子的中间挡上,只露出两头,这两头同时上下运动,宝宝能猜出来这两头属于同一根棍子。
这时候你撤掉挡板,如果果然是一根棍子,宝宝不会感到意外。但如果挡板后面露出来的不是一根、而是两根棍子,也就是说两头并没有连接在一起,宝宝就会感到意外,他就会盯着看。
- 第二个知识是数学
我们知道1+1=2,而不是1,宝宝也知道。一个小球跑到挡板后面,另一个小球也跑到挡板后面,然后你撤掉挡板,里面如果的确有两个小球,宝宝会认为正常。但如果撤掉挡板发现只有一个小球,也就是1+1=1了,宝宝就会感到意外。
类似地,婴儿还知道 5+5≠5,10-5≠0。刚出生几个小时的婴儿,甚至一些小动物,比如猴子、鸽子、乌鸦、小鸡,都有数字感。科学家证明小鸡刚刚从蛋壳里孵化出来,都没见过任何物体的情况下,就已经对数字有感觉。人们甚至发现猴子的大脑里有专门的“数字神经元”,从 1 到 30 的每个数字,都对应一个特定的神经元:猴子看到比如说 4 个香蕉的时候,跟数字 4 对应的神经元就会活跃起来。
- 第三个知识是概率论
宝宝看到一个小盒子里有 3 个红球和 1 个绿球。你从盒子里随机拿球,如果拿出来的是红球,他不会感到意外;如果拿出来的是绿球,他就会多看你一会儿 —— 因为他知道拿到绿球的概率比较低!
而且婴儿还会反向推测。你拿一个盒子,宝宝事先不知道里面有什么球,然后如果你一次一次拿出来的球,红色比绿色的多很多,他能判断出来盒子里应该是红球多。这表现在如果打开盒子发现里面是绿球多,他会感到意外。
再进一步,如果宝宝知道盒子里是红球多,可是你每次都拿出来绿球,他就会判断你不是随机拿球的:他认为你喜欢绿球!
有一派学者认为人脑本质上就是一台概率机器,随时都在评估各种事情的概率大小。不论如何,这个概率感证明了几个月大的婴儿就有逻辑思维能力。
- 第四个知识是生物学
婴儿非常清楚地知道,没有生命的东西自己不会主动做动作。你让一个小球本来沿直线走着走着,突然自己跳了一下,宝宝会感到意外。
婴儿对人的理解非常实用,他能看出来谁是好人还是坏人。一个实验人员当着宝宝的面把另一个孩子扔在地上,宝宝就不喜欢这个实验人员 —— 表现为不看他。另一个实验人员把地上的孩子抱起来,宝宝就很愿意看她。孩子还能看出来你是在正常做事情,还是在故意教他什么东西。
婴儿对人脸有特殊的偏好。刚出生几个小时的宝宝,你给它一张房屋风景照和一张人脸照片,他更喜欢看人脸的照片。这是因为我们大脑中有专门用于识别人脸的结构,对人脸无感的孩子可能有自闭症。
迪昂还提到一个让我感到有点离奇的研究。当胎儿还在妈妈肚子里的时候,如果你用三个光点去隔着肚子透射他,而这三个光点正好是两点在上面、一点在下面,像人脸,胎儿就会更注意这些光点;你要是倒过来让两点在下一点在上,不像人脸了,他就没有那么大的兴趣。难道说孩子还没出生的时候,就已经更喜欢看人脸了……
- 第五个知识是语言
刚出生的婴儿,同样是听陌生人说话,他更喜欢听人说他的母语而不是外语。这可能是因为胎儿已经能分辨语音,熟悉了母语。相对于别的声音,宝宝对母语中的音节更敏感。日语中 R 和 L 这两个音不分,日本宝宝也就对这两个音的区别不敏感。婴儿几个月大的时候就已经能识别哪些词是常用词:比如像妈妈、宝宝、吃奶这些词,他会更敏感。这说明他已经在调整自己的语言模型中的词汇概率。
语言功能是人类的特长。有科学家曾经领养了一个黑猩猩的宝宝,让它和自己的孩子从小享受同等待遇,同吃同住同玩同学习……结果发现黑猩猩的智力确实是硬伤。你不管怎么教,黑猩猩最多能识别几百个单词 —— 而人脑天生就是一部学习语言的机器。
那你说这些知识有没有可能是婴儿在出生以后的几个月慢慢学会的呢?迪昂认为还是天生的因素更大一些。首先有些能力是出生几个小时就具备。然后就算要学,有哪个家长会特意让几个月大的宝宝学习物理和数学知识呢?当然婴儿的确是一直在学习,他会自己拿东西玩,会做各种实验,他对物体的掌控感越来越强,但是那些训练更像是让已经有的能力变得更敏锐,而绝不是从零开始。
然后我们还有更过硬的证据。
最明显的证据还是功能性核磁共振扫描。成年人大脑里相应的区域,婴儿都有。比如说语言,我们大脑里有专门处理语言的区域,而婴儿大脑相关的区域对语言处理的过程跟成年人完全一样。你对婴儿说一句话,这个语音会先进入听觉区,接着是词法分析区、语法分析区,最后进入语义分析区。这个次序,各个区域从快到慢的处理速度是听觉最快,语义分析最慢,所有这些都跟成年人一样。
他现在还听不懂这句话,但是他的大脑做好了听懂语言的一切准备。
婴儿大脑的空间感知区域也准备好了,可以绘制地图,知道房间中不同东西的位置。他的视觉、识别人脸的功能,都和成年人是一样的。
那你那个 AI 要是根本没有这些功能性区域,没有专门的神经网络连接,又怎么能跟婴儿比呢?所以现在 AI 也在走这个方向,有个项目叫“虚拟婴儿计划(Virtual Baby Project)”,就是要像人脑一样,把所有该先天内置的功能全部内置,各个功能区的神经元都连好,完了再进行数据训练。这才是真正的仿生人脑。
咱们借用一句佛经里的话,每个人一出生都是“自身具足”的。你身上有学习的种子,就好像人人都有佛性一样,你有“学习性”。
那为什么有的小孩聪明,有的小孩不太聪明呢?大脑的蓝图确实都一样,但是在这个共同点的基础之上的确会有微妙的个人差异。大脑中有些差异就好像指纹一样,连双胞胎都不是完全一样的。
刚出生的小孩,科学家扫描他的大脑,就能知道他有没有阅读障碍。阅读障碍是先天的,是大脑的硬件问题。有阅读障碍的孩子对文字很不敏感,认字非常困难。科学家已经知道有四个基因决定了一个人是否会有阅读障碍,阅读障碍的遗传概率是 50%。
但是,后天训练对大脑的影响,总是比先天硬件的差异大。阅读障碍可以通过训练改变。人脑有先天的结构,但是更有“可塑性”。
四、学习是生理现象
关于大脑的“可塑性”你可能已经听过很多说法了,我感觉每次听到新的说法都会在悲观和乐观之间摇摆。
没听说过“可塑性”这个词的人可能会对大脑成长持悲观态度。我们在日常生活中观察,人到了一定年纪有些新东西就很难学了。特别是语言,小孩几乎是不用教就会,大人怎么学都学不会。
而你第一次听说“可塑性”,可能会非常乐观。一个中风患者,大脑里一大片区域都损坏了,半身瘫痪,只要经过一段时间的强化训练,竟然能在旁边再长出一套神经连接来控制身体。如果这都可以,我们想学点新东西又有何难?你会听到有的激进观点甚至不承认人的学习有所谓“敏感期”。但是你要深入了解,大脑成长的敏感期的确存在。
学什么东西都跟练武术一样,本质上是个生理现象。我们的大脑是肉长的,它的好与坏都是因为这个。
0x1:神经的连接
一切知识和技能都是以神经元连接的形式存在于大脑之中。人体细胞一般都是球形之类,唯有脑细胞,也就是神经元的形状最奇特,是树状的,也可以说像芹菜。作为最简单的认识,你只需要知道神经元上的三个部位:突触、轴突和髓鞘,
神经元身上细长而又比较粗、作为传递电信号的主干道的结构叫“轴突”,轴突外面包着“髓鞘”,轴突的外端点、用于跟其他神经元连接的地方叫“突触”。大脑中有几百亿个神经元,它们之间彼此连接,构成了一个无比复杂的网络。每个记忆、功能、知识和技能都是由其中一个子网络实现。我们为什么总爱说创造性思维是“想法的连接”、现代化要“加入圈子”呢?因为思维就是连接,知识的本来结构就是连接。
不过学习过程更多的是强化现有的一些连接,而不是建立新连接。事实上你就算什么都不做,大脑也在忙着建立连接。下面这张图是儿童从一出生到六岁大脑神经元的连接情况 ——
小孩刚出生就比成年人有更多的神经元。此后连接越来越多,到两岁,神经元总数达到成人的两倍,有密密麻麻的连接。随着后天的学习,某些连接会得到加强,不用的则会被修剪掉。
最粗略地说,神经元连接存在,那个先验知识就存在。连接的加强和修剪就是用贝叶斯方法修改概率。连接加强的规律是 “fire together, wire together”:两个神经元越是经常一起被激活,它们之间的连接就越强。“强”表现在传递信号速度更快精确度更高。如果一个连接特别强,其中神经元的轴突会变粗,轴突外面会包上一层髓鞘,髓鞘能起到一个绝缘保护的作用,就好像用胶布包上导线,能增强里面的电信号。
神经元是如何“录制”信息的呢?比如你去白宫会见了特朗普。你到了总统办公室,跟特朗普握了手,你们聊了一阵。这种经历不常有,所以只发生一次就能给你鲜明的记忆。而这个记忆会存储在大脑的不同区域之中。
你对特朗普办公室的印象记录在大脑负责空间想象的区域的一些神经元连接之中。你的视觉区域也记录了很多。特朗普的脸会特别记录在大脑中专门负责人脸的区域中,特朗普的声音会记在大脑的声音区里。回忆当时握手的力度,会激活负责你的手的神经元的记忆。所有这些子网又都连在一起,形成对整个事件的记忆。只要将来偶然又看到特朗普的照片,你就有可能唤醒整个事件的记忆之网。
那你可能会说,知识跟这样的经历记忆好像不太一样啊?是的,我们总共有四种记忆。
0x2:知识是什么
大脑的四种记忆是由不同的区域主控的。
- 第一种是“工作记忆(working memory)”。也叫短期记忆。比如你查到一个电话号码要临时用一下,它纯粹就是一组没什么意义的数字,不会唤醒你的情绪波动,这就是工作记忆。这个信息会在你的前额叶皮质暂存一下,几秒钟之后就忘了。工作记忆有点像计算机的内存。
- 第二种是“情景记忆(episodic memory)”。去白宫见特朗普,包括你每天在生活中经历的事情、到过哪里、和谁说过话,这些都是情境记忆。情景记忆总要经过海马体,特点是那个情景越特别、越是调动了你的更多感官、最好还能产生情绪波动,记忆就越鲜明。比如你感到兴奋,大脑会分泌多巴胺,多巴胺能够加深神经元连接。情景记忆只录制一次,如果印象不深事后不回忆,神经的连接就很弱,以后就忘记了。
- 第三种是“语义记忆(Semantic memory)”,可以叫知识记忆,是长期的记忆。晚上睡觉的时候,海马体会把白天的一些情景记忆输送到大脑皮质中,在那里重新编码,变成一个不容易忘记的知识。所以睡眠对学习非常重要。
- 第四种叫“进程记忆(procedural memory)”,也可以叫内隐记忆,它记住的不是什么知识点,而是一段动作,可以说是肌肉记忆。比如练成了一段钢琴弹奏、熟练掌握了一组花样滑冰动作,或者能流利背诵一首唐诗,这些都是进程记忆。进程记忆的形成可以不经过海马体,它的重点存储区域是基底神经节。
曾经有一个特殊的病人,大脑海马体损坏了,什么事情都记不住。研究者天天跟他见面,每次都要重新做自我介绍。但是研究者每天都训练这个病人对着镜子倒着写字 —— 他记不住这个情景,但是他倒着写字的水平每天都在提高……以至于后来他每次都很惊讶,为什么自己从来没练过,上来就能写得那么好。
这就好比说一个人天天半夜梦游起来练武术,他在自己完全不知道的情况下成了武术高手。
既然都是生理组织,记忆就可以被干扰,可以被删除,甚至可以被嫁接。现在科学家已经能够比较精确地观察一段记忆到底会调动哪些神经元。用老鼠做实验,先在一个地方让老鼠形成记忆。然后科学家等着,老鼠做梦正好梦到那个地方的时候,也就是观察相关的神经元正好激活的时候,给它注射一点多巴胺。结果是老鼠一醒过来第一件事就是去那个地方。
而所谓学习,就是你想要语义记忆和进程记忆,你想加强神经元的连接,你想让知识长在大脑里。但是不好长。
0x3:学习的敏感期
让神经元连接恰好形成有用的知识和技能,那是非常精密的过程,直接注射什么东西肯定是不行的。事实上因为神经元是肉长的,而大脑发育过程中各个区域的生长不一样,学习必须精密配合才行。
首先营养得跟上。大脑非常消耗能量,小孩全身 50% 的能量都用在了大脑上。以色列发生过一件事情。一家生产婴儿奶粉的公司,违规没有在奶粉中添加维生素B1,导致几百个婴儿在出生之后的第一个月里,有 2-3 周的时间没有得到维生素 B1。而就因为这一点,这些孩子的语言学习就错过了敏感期,这使得他们一直到他们长大之后,语法能力都不正常!
这可不是一句“大脑可塑性”就能弥补的。是,可塑性可以弥补一部分,但毕竟是不如原装的好。科学家用动物做实验,阻断了声音信号传递到大脑处理听觉区域的路线,使得动物变聋,整个听觉区没用了。但是接下来,听觉区的神经元开始参与处理视觉信号!那你说这是不是对视觉更好呢?是不是上帝关上一扇门就打开一扇窗呢?并没有:听觉区神经元处理视觉信号的能力不如视觉区神经元,等于是干扰了视觉。
最理想的还是该干什么的区域就让它干什么。
人类大脑的视觉区域会在两岁之前彻底长好,而第一个月,就是视觉最关键的敏感期。婴儿刚出生的时候,光线从进入眼睛到后期处理需要 1/4 秒,几周之后就只需要 1/10 秒。两个眼睛同时看东西,形成一个立体感,能判断物体距离远近,这个能力是在出生后几年内建立起来的。那你说如果在此期间没有让人充分接触光线,没有好好看东西,会发生什么?他就不会有正常的视觉。
整个听觉的成长期到三、四岁的时候结束,但是语言识别的敏感期就在出生后的几个月。日语里 R 和 L 这两个音不分,日本婴儿出生几个月内没学会区分这两个音,就一辈子也分不清了。所以日本人学英语都分不清 right 和 light,red 和 led,elect 和 erect。
再比如中文里有四个声调,你要出生在中国,一岁之前的敏感期能听出来,就一辈子都能区分。你是个外国人,长大再学中文,中文的四声激活的就不是你的语言处理区域,你最多把它们当唱歌那种音调变化,你怎么学中文也说不好四声。有的中国孩子出生一年后被领养到美国,长大了一句中文都不会,可是测试表明,当他听中文的时候,四声变化仍然能激活他的语言处理区。
所以我们不尊重这个敏感期是不行的。语言区域的可塑性永远都不会降到 0,你要是特别努力学外语也能学得跟母语一样好,但是那太难了。十岁以后再学外语的,通常怎么学都会留下一点口音和怪异的语法痕迹。
如果孩子刚出生就发现是耳聋,要么你就立即给他的大脑中植入一个助听装置,要么就抓紧时间教他手语 —— 手语也可以算是一种自然语言。错过了第一年的语言敏感期,他此生的语法能力都受影响。
社交能力也是这样。如果婴儿在 20 个月之前没有得到父母很好的照顾,没有和人很好的互动,那么他终生的社交能力都会受限。
现在科学家在想办法重新打开大脑各个区域的可塑性,让我们比如说成年以后也那么容易学习语言。药物的方法,甚至电击的方法都用上了,不能说完全没希望,但是至少目前来说,我们不得不尊重大脑的发育顺序。
那你说大脑为什么非得有一个敏感期,为什么不一直都保持高度的可塑性呢?根本的原因是你希望基本功能能稳定下来、成熟下来。你不希望永远花时间分辨别人说话的四声,你希望让那个技能进入快速通道,完了你好关注更高级的东西。
而另一方面,大脑的固化也定义了你是谁。将来不论你有什么境遇,只要一岁以前听的都是中文,你就永久性地被打上了中国的烙印。
好在我们的前额叶皮质固化的速度很慢,一直到青春期还在快速生长,永远都不会彻底固化。这使得你永远都可以学习新知识。跟别的动物相比,这是一个奇迹。
五、旧脑的新用
也就在一百年前,世界上大部分人都是文盲。人们做的都是一些粗糙的工作,主要靠力气谋生,而今天相当大比例的人是从事脑力劳动,做非常精细的工作。这个变化不可能是自然选择的结果,生物进化太慢了。这是教育的力量,是学习的力量。
学习,只需要不到二十年,就能把一个父母都没上过学的人变成数学家。
这是怎么做到的呢?我们设想,数学家的大脑跟没上过学肯定有重大的区别……那是什么区别呢?斯坦尼斯拉斯·迪昂在《我们如何学习》这本书中说,区别的确是有区别。只要扫描一下大脑,任何一个脑科学家都能看出来谁是数学家谁没上过学,这个区别是硬件水平的差距。但是,这个区别不是什么本质的不同。数学家的大脑也是他父母给的,后天的学习并不能彻底改写大脑结构……
就好像孙悟空学会了七十二般变化也不得不保留自己的尾巴一样。你再怎么学,也会偶尔流露出原始大脑的本性。
0x1:数量本能
你说我们在做加减乘除计算的时候,是在做数字符号式的计算呢,还是模拟生物式的计算?我先说说这是什么意思。我们算乘法都是背口诀,八九七十二,二六一十二,8×9 和 2×6 这两道题的难度对你好像是一样的,你并不关心其中数字的大小,顺着口诀就说出来了答案,数字对你来说只是符号。如果是这样的,那就叫符号计算。
但是对加减法,我们通常不是靠口诀。算 2+1=3,我们好像就是想象两个东西加一个东西是三个东西,我们好像产生了某种“数量”的直观感受。
迪昂没说乘除法的事儿,但是迪昂认为,我们算加减法是模拟生物式的运算。科学家有充分的证据表明,人们算 9 - 6 所花的时间比算 9-4 要长,而算 9-4 又比算 9-2 用的时间长。我们就好像刚学算数的小孩用手指头算减法一样,先想象 9 个东西,然后一个一个地拿掉 6 个、4 个或者 2 个东西。要拿掉的东西越少,计算时间就越短。
数字在我们大脑中并不是单纯的、抽象的符号,而是真的代表数量,这是原始人、包括动物也有的数量感。
因为我们对数量有直观的“感”,我们有时候会做一些事后想想有点怪的事儿。比如有一天上午你去签约买房。房子成交价是两百多万,其中有个小细节涉及到一万多块钱的争议。你心想两百多万的房子都买了也不差这这点钱,就直接同意了。
然后当天下午你在淘宝买一根二十多块钱的数据线,你花了五分钟又是琢磨性能又是评估质量货比三家,终于节省了两块钱。
如果你不在乎一万多块钱,为什么要在乎那两块钱呢?根本原因就是我们的大脑对数字”本身“的感觉,比数字的”单位“强烈得多。200万和200元给我们的数字感差不多,两块钱之于二十块钱的比例对我们的刺激很深。
学习再高级的数学,也离不开这个数字感。
0x2:神经重用假设
迪昂本人提出一个关于人类学习的关键思想,叫做“神经重用假设(neuronal recycling hypothesis)”。
迪昂认为,学习带给我们的新能力,不管你是数学家、音乐家还是抽象艺术家,不管多么高级,都是对人类大脑中早就存在的旧脑区的新利用,而不是开辟一个新的脑区。你不是在白纸上建设一个新功能,而是把大脑已有的功能区域给来一个重新定向使用。这个假设如果成立,就说明学习改变不了大脑的根本结构,只是把大脑的神经网络变得更敏锐、更精细化而已。而这也就意味着,我们的学习要受到大脑结构的限制。
脑神经科学的新研究给迪昂提供了有力的证据。
我们的数字感来自大脑的顶叶皮质(parietal cortex)和前额叶皮质(prefrontal cortex)中的神经网络。每个数字都对应特定的神经元,当你看到阿拉伯数字“5”的时候,你大脑中并不只是一个符号,而是一个数量。原始人和动物不会掌握精确的数字,有些原始部落里的人无法表达比 3 大的数,但是,他们都有一个“近似的”数字感。他们对 5 和 6 之间的差别确实不敏感,但是 5 和 10 的差别很大,他们完全能感受到。
顶叶皮质里的神经活动是一维的,专门处理数量关系。哪个小哪个大,从低到高的排序,甚至包括社会地位的高低顺序,只要跟数量和大小有关,就归顶叶皮质管。你是再厉害的数学家,没有这个区也不行。
顶叶皮质本来是动物们用来模模糊糊地评估数量大小的,我们学了数学以后,它就好像焕发了第二春一样,获得了思考高精度数学问题的能力。职业数学家考虑数学定理也用顶叶皮质,就跟小学生算算术一样。这就是神经重用。
当然数学计算还需要调动其他的脑区。后顶叶(posterior parietal lobe)本来是帮助动物转移凝视的对象和注意力用的,而现在它开始参与数学计算了:要算个加减法,你得想象数字在空间移动,你的注意力一次处理一个数。
为什么一个从小失明的人长大之后成了数学家,还研究几何?因为几何调动的关键脑区不是视觉之类的感官区域,而是顶叶、后顶叶和前额叶。迪昂认为盲人也能成为数学家这件事恰恰说明每个人对数学都是本身具足:要不是他们已经拥有抽象思维的能力,又怎么可能只靠那么有限的感官经验掌握数学呢?事实上失去视觉对盲人搞数学可能还成了一个优势:本来视觉信号进入大脑之后要在皮质进行分析,现在大脑皮质不用管视觉了,就可以更多地用来做数学。
有些看似简单的能力,都是基于特定脑区的。
- 为什么你能看懂二维的东西,比如说地图、表格和统计分布图?因为你的大脑中有个“内嗅皮质(entorhinal cortex)”,其中的神经元编码是二维的。否则要是光靠顶叶皮质,我们就只能理解一维的数学。
- 腹侧视觉皮层(ventral visual cortex)善于思考线条和形状。
- 布若卡氏区(Broca’s area)善于处理语义树。
不同的脑区对世界的逻辑结构有不同的假设:有的认为世界是一维的,有的认为是二维的,有的认为是树状的……你得先拥有产生这些假设的能力,才能去验证、去理解相关的知识。
原始人用这些脑区去识别动物花草和区分大概的数量,今天的人们才能用它们来做计算、编程和搞艺术创作。但我们并没有脱离它们。
0x3:大脑变“弱”了吗?
民间哲学家王东岳发明了一个说法叫“递弱代偿”,说生物的生存能力总是一代比一代弱,同时越来越依赖外界的支持。神经重用假设是一种递弱代偿吗?我们把那些脑区都用在学习新知识上了,它们原本的功能会不会因此减弱呢?
我认为“递弱代偿”既不符合进化论也不能解释所有的相关现象,根本就不是一个科学理论,没有预言能力,只能让人拿来对社会变迁发发感慨。没有任何证据说因为人脑学了新知识,旧的功能就变弱了。
我们不要低估大脑的潜能。咱们说一个迪昂本人参与的研究。
视觉皮质里有一个小区域,本来是专门识别人脸和给各种物体分类用的,它位于大脑的左半球。我们学习文字、把文字转换成声音和意思,也用这个区域。我们把它称为“文字区”。
迪昂专门去葡萄牙和巴西研究了几个从来没上过学的成年人,扫描发现他们的文字区已经被识别人脸和物体的功能占满了。他们面对文字就好像《侠客行》里的石破天一样,只能看见各种线条和形状。而对比之下,识字的人看文字能看出声音和意思来,不管文字是大是小、变换字体、位置和大小写,你都不在意。你的文字区里除了人脸和物体分类功能之外,多了一个文字功能。
这个过程是小孩从六七岁上学开始逐渐进行的,
上学之前,这片区域中有物体、有人脸、有地点专属区,同时还留有一些空白。上学之后,空白的地方就慢慢被文字所占满。而那些从来没上过学的人,则继续用物体、人脸和地点占满剩下的空白区。文字,抢占了其他功能的地盘。
但是!人脸、物体和地点功能并没有就此止步,它们在人的右脑对称的位置,开辟了新的领地。我理解那片领地本来是个冗余,现在因为你受教育,而变得有用了,
所以学习文字并没有让你损失人脸识别能力,只是让你的大脑更有用了。
不过问题并没完。我们要是用得再狠一点,会怎么样呢?职业数学家阅读数学公式是个超能力。普通人看公式如读天书,数学家扫一眼就知道怎么回事儿。这个功能也是长在识别人脸的那个区域,而且数学家用得比较狠,把大脑左右半球的两个相关区域都用上了……那么数学家在识别人脸上会不会有困难呢?
没有证据能证明这一点。是,有些数学家好像有社交障碍,不怎么在意人脸,但是别忘了,很多不懂数学的人也这样。而且也有很多数学家非常善于交际。
不管怎么说这都跟“递弱代偿”没关系,科学结论是多学点东西对大脑根本不是负担。多数人只会一种语言,但大脑不是只为一种语言准备的:有些人从小听着两种语言长大,大脑不但够用,而且语言学习潜能还被开发出来了,将来再学第三门、第四门外语都很容易。
教育对绝大多数人的作用只是开发大脑,不是挤占大脑,大脑里的神经元很多,原始人会的那点技能很少。
“神经重用假设”给我们的教训和启发大概有这么几个。
一个是大脑发育“敏感期”很重要。六七岁开始学文字是一个非常恰当的窗口期,文字区没被占满而且正在成长之中,这就是为什么小孩学得快。等到长大成人,文字区变“硬”了,再学认字可就难了。从小学音乐的人读乐谱的速度都比后学的人快。
迪昂研究过两个成年以后才学认字的人。一个人是从来没上过学,他最后费了很大的劲,竟然在通常的文字区之外新开辟了一个记录文字的脑区,但是学得很慢。另一个人则是因为中风把文字区整个破坏了……他努力了,但是终究没有长成一个新的文字区。
所谓“数学家的直觉”,到底是什么呢?机械化的计算谈不上直觉。现在我们知道大脑是个模拟设备,那些区域里本来一切都是形象化的东西,那么直觉也许就是某种形象思维。
六、电子游戏能提高专注力吗?
讲学习方法没有不强调专注力的。专注力是最硬的学习功夫,是比智商更重要的能力,对普通人的学习成绩有决定性的作用。学习需要专注,这个道理谁都赞成,但是魔鬼在细节之中。脑科学能回答一些有争议的问题,比如说,打电子游戏能不能提高专注力。
我们简单地说,专注力(concentration)是使用注意力(attention)的能力。而注意力是对信息的选择。我们每时每刻都在接触大量的信息,而大脑处理能力有限,所以必须有选择地接收。这表现在各种信息进入大脑的深度不一样。
有的信息到达感官,比如听觉、视觉、触觉,就打住了。引起你充分注意的信息,才能从感官形成概念,再由概念形成解读,一直进入到前额叶皮质之中。前额叶皮质中有大量的神经元能够更长时间地被激发,信息深入到这里你才能记住和学到。
所以注意力是学习的必要条件。大脑一共有三种注意力系统,分别决定了你
- “什么时候注意”
- “注意什么”
- “如何注意”
0x1:刺激越激烈学得越快 - 你什么时候注意
能被外界信号引起注意,是我们最原始的一个动物本能。你不但要机警,还得机敏。你在丛林里散步,走着走着突然有一只老虎大叫一声蹦出来了,那你肯定会立即忽略其他一切想法而专门注意这个威胁……否则你就会被演化淘汰。
报警信号决定了我们什么时候注意。这个机制是警报一拉响,大脑马上就会释放大量的神经调节质,比如多巴胺、血清素之类,它们会让你立即产生强烈的情绪波动,调动很多个长距离的神经元连接,把信号迅速传递到整个大脑皮质之中。用老鼠做实验,如果提供一个声音信号的同时还提供神经调节质,老鼠就会更容易学会和分辨这个信号。
这种强烈的刺激,能提高大脑皮质的可塑性,包括对成年大脑也是这样。我们大脑皮质里总是有两个过程在同时进行。一个是激发,让神经元变得活跃;一个是抑制,让神经元变得不活跃。强烈的刺激,不但提高了激发,而且还“抑制”了那个抑制过程,这就可以暂时开启皮质的可塑性,那一刻的大脑就好像重返青春一样。我理解现在有些研究使用药物甚至电刺激大脑的方法试图重开可塑性,就是这个原理。
但是你明白了这个原理,其实不需要那些“硬”刺激。迪昂说如果你对自己所学的这个东西有强烈的兴趣和热情,你学习的时候产生强烈的兴奋情绪,那你的大脑就会更活跃,可塑性就会提高,你就会学得更好。
要这么说的话,我们学东西最好不要默默地学,应该有一惊一乍的感觉。拿过来一个知识点应该拍案惊奇。古人听说一个快意的事儿动不动就“当浮一大白”,我们读书读 high 了应该在想象中跟作者干一杯。这样你学习效果才好。
正是在这个意义上讲,电子游戏其实是一种高效的学习方式。特别是暴力游戏,随时都有警报,一个动作没做好你就被打死了,做好了你就能把对方打死,你就立即收获多巴胺,你说打游戏的学习能不快吗?旁观高手在游戏中的微操作能让人心生敬畏。他眼神的反应、鼠标的速度、站位的选择、时机的把握,绝对不是闹着玩能玩出来的。
有实验表明,10个小时的电子游戏训练足以提高人的视觉探测能力,你扫一眼就知道屏幕上局面是怎么回事儿。游戏能最有效地提升专注水平。你能更长时间地集中注意力,面对干扰沉着冷静。你在压力面前毫不退缩,在极短的时间内能够连续做出精准决策……请问谁不想要这样的能力?
也许电子游戏能延缓大脑衰老。当然游戏有很多坏处,占用了你的学习时间和社交时间,还会让人上瘾……但是,我们可以把游戏思维用在学习上。老师讲课能不能讲得刺激一点?教科书能不能写得更引人入胜?教学环境能不能提供一个更沉浸的体验?
0x2:注意到才能学到 - 注意才能学到
注意什么,是我们主动把注意力转向的能力。你去参加一个聚会,房间里有很多人在说话,你能精确地选择听谁说话。同一幅画,有的人看色彩,有的人看线条,有的人看风格,而有的人看笔法和技术。如果不是突然的刺激,每个大脑接收到的都是主动选择的东西。
专注力意味着你可以选择看什么就能看到什么,也意味着你不看什么就忽略了什么。有个著名的实验叫做“看不见的大猩猩(invisible gorilla)”,现在已经被重复验证了很多次,受试者每次都感到很震惊。
你要看一段录像,内容是两个队伍在打篮球。你的任务是数清楚穿白色球衣的那支队伍的总传球次数。这是一个简单任务,只要注意力集中就行 —— 结果受试者的注意力都非常集中……以至于大多数人没有注意到,有一个大猩猩从球场上大摇大摆地穿过。
有的研究扫描受试者眼球,发现有好几次,受试者的眼睛正好对准了那个大猩猩,但是他们视而不见。所以真正的看是用大脑去看,而不仅仅是用眼睛。你的注意力要是没到位,这件事对你就相当于不存在。
学习,得会看门道才行。同样是学单词,你要是只注重字形整体就很难学会,你要是注意其中的字母组合规律,就更容易学会发音的规则。
这么说的话教学必须管理好注意力。老师必须随时引导学生的注意力才行。
0x3:专注的功夫 - 如何注意
高水平的学习者必须善于控制自己的注意力。所谓“如何注意”,靠的是大脑的“执行控制系统(executive control system)”。这是大脑最高级的功能,由额叶皮质主导,作用是督导大脑的活动。
比如你做一道简单的算术题,23×8。大脑会让你先算 3×8=24,然后把 24 这个数字在“工作记忆”中暂存起来,然后算 2×8=16,因为是十位,要变成160,然后你再把刚才暂存的 24 拿过来,算出 160+24=184。
整个过程中,你的注意力在不断地移动,有时候在 8 上,有时候在 3 上,有时候在 160 上。这个移动,就是执行控制系统的作用。要用电脑强行打个比方的话,执行控制系统就好像是 CPU 和内存的联合工作,它能确保你按照正确的顺序执行操作,能发现你的错误,还能随时调整计划。
执行控制系统每次只能做一个任务,所以一心多用是不可能的。执行控制系统的强弱体现在你的工作记忆能暂存多少个东西,你能同时用多少个东西思考,你的执行速度快不快,你能不能坚决有效地完成一个高水平逻辑项目,所以执行控制系统跟智商密切相关。工作记忆就好像内存一样,我以前听到一个说法认为没受过教育的人的工作记忆只能容纳 4 个东西,而受过多年教育的人的工作记忆可以容纳 7 个东西。迪昂提到的一个研究说人每接受一年正规教育,智商提高1到5分。
所以执行控制系统是可以练的,但是它首先有一个成长的过程。对专注的自控包括两个方面,
- 一个是控制自己做该做的事
- 一个是抑制住自己,不去做不该做的事
一个特别有意思的实验是这样的。对一岁以下的儿童,研究者一开始总是把一个玩具藏在 A 地点,然后孩子就记住了这个地点,每次都去 A 处找玩具。后来研究者改为每次都把玩具藏在 B 地点,但是他每次找玩具仍然会先去 A 地点,这是为啥呢?
以前人们曾经以为这是因为孩子缺乏对物体位置的判断力,后来发现不是。从孩子的眼神之中,研究者能看出来,孩子其实已经知道玩具现在在 B 地点了,但是他还是要先去一下 A 地点 —— 因为他已经养成去 A 地点的习惯了!他的大脑里有一个去 A 地点找玩具的冲动,他必须抑制住这个冲动,才能不去 A 点直接去 B 地点。
但是不到一岁的孩子还不会抑制自己的冲动。事实上这个执行控制系统是人类特有的系统,也是人成长最慢的能力,是一直到 20 岁才长成。这就是为什么那些青春期少年能机敏地对信号发生反应、能够把电子游戏打得很好、能理解现在应该注意什么东西,但是很难长时间专注于做一件事。
那怎么练习专注力呢?迪昂认为打游戏是个好办法。当然练习一门乐器也是个好办法。比如每天练练弹琴,你必须控制好身体、思想和手,耐着性子执行固定的流程,这个可以提高专注力。
我认为老师和家长比学生本人更需要专注力的知识。你要教孩子学习必须牢记一点:孩子是通过“你的”注意力判断所要学习的东西的。还记得我们前面说的关于蝴蝶和潜水艇的故事吗?光说不行,你的注意力得在这个东西上,孩子才知道你是在教他。
有个实验是这样的。老师面前摆了两个东西,如果老师只是拿起来其中一个东西,孩子对这件事的解读就是老师本人喜欢这个东西。但如果老师在做选择的时候,通过手势或者眼神向孩子做了示意,明确指出这个东西,孩子就会理解到,是这个东西本身是个好东西,他才能学会这么一条知识,才会模仿老师的行动。
所以教学的过程中,老师一定要始终让学生知道你的注意力在哪里:你的注意力应该始终放在学生不知道、但是应该知道的那个知识点上。然后学生必须知道你知道他不知道这个知识点。老师的注意力就好像是一种灵力一样,是学习的关键资源。
这就是为什么家长对孩子说话很重要,让孩子看电视听录音学语言就不行:因为电视里的话不是对着孩子说的,电视机录音机没有注意力,必须得是一个真人的注意力才管用。注意力是非常微妙的互动,可能无法用视频表现。网课、视频会议效果不如真人见面,也许道理就在这里。这大概也解释了为什么成功的演讲需要眼神和手势的配合:你最好时刻让观众知道你的注意力在哪。
学习有两个方法。自己在环境中主动试错,这种方法连动物都会。跟父母和老师学习需要你调动专注力,这个方法看似被动,却是人类特有的能力,是人类文明得以传承的关键。
七、“积极”是多积极
为了增强你的学习效果,我先问你一个问题。假设你是一个小学数学老师,这一节课要教给学生一个他们没见过的新题型。在以下两种教学方法中,你认为哪个效果更好,
- 第一个方法,你先把题目抛给学生,让学生们自己摸索计算。比如一堂课 45 分钟,你先让他们摸索半小时,再用最后的 15 分钟点评讲解。
- 第二个方法是你一上来就先讲一道例题。明确告诉学生这个新题型的要点是什么,应该怎么解,并且总结解题的步骤。你讲完了,再出几道练习题给学生做。
我先说说背景。这个第一种方法是被很多教育专家所推崇的“发现式学习”,思路是让学生们通过探索、自己发现知识。你自己发现的知识,肯定自己更容易接受,对吧?
不对。科学家做了很多个研究,不同学科的教学都做过实验,结果都是第二个方法 —— 那个听起来很传统的方法,教学效果更好。甚至哪怕是你教的学生很聪明,自己真的把新题型给解出来了,他的掌握程度也不如传统方法教出来的学生熟练。
这是为什么呢?学习不就应该积极主动吗?
0x1:学习要求积极参与
如果学生只是被动地听讲,哪怕他老老实实心无旁骛,每个字都听见了,意义也不大。高效率的学习,学生必须非常活跃、非常积极地参与才行。积极参与的关键是随时提出自己的假设,预测这个知识点将是什么,然后验证老师讲的和自己想的是否一样。为此你应该主动思考、主动探索。用自己的语言去总结新学到的知识,对知识有自己的想法。而这一切的前提,是学生必须得明确地、深度地领会知识。
这个“深度领会”并不神秘。有个实验是这样的,给每个学生发一张英文单词表,上面很随意地罗列了很多单词。学生们被分成三组,给同样的时间,但是他们的任务不一样,然后测试每组学生平均记住了其中多少个单词。
- *第一组学生的任务是判断每个单词是大写还是小写,结果他们只记住了 33% 的单词;
- *第二组学生关注单词的发音,看看是否跟一个特定单词有同样的音韵,他们记住了 52%;
- *第三组的任务是判断每个单词是不是动物的名称,结果这组学生记住了 75%。
为什么会有这样的差异呢?因为单词信息可能只进入了第一组学生的视觉区,连默念一遍都没有;第二组学生让单词信息进入了语音区,而第三组则进入了语义区。同样都是集中注意力接收信息,因为信息进入大脑层次的深度不一样,学习效果就不一样。
积极参与是为了让学习进入更深的脑区:不但要进入海马体,而且要到达前额叶皮质,想得越深越能记住。科学家通过扫描大脑活跃情况就知道谁在积极参与,学习整个都是硬件过程。让学生积极参与,老师可以使用这么几个办法,
- 课堂提问
- 当场做练习
- 分组讨论
- 小组联合完成一个任务
- 用教具提供直观体验
关于最后一点,有人做过实验。比如大学生学习“角动量”这个物理学概念的时候,拿一个自行车轮子给学生直接上手转一转,就能明显提高学习效果。而与此同时,那些没有上手参与,只是在旁边看别的同学玩那个轮子的同学,学习效果就没有那么好。
如此说来,课堂学习中调动更多的“感”,提高参与度,是个好办法。
0x2:认知积极 vs 行为积极
开头说的那个发现式学习为什么不行呢?咱们举个例子,编程。你扔给学生一台计算机、打开一个编程界面,告诉学生自己探索,他的确能摸索出来一点门道。但是那个会很浅。
学生可能一开始觉得很好玩,迅速学会了几个简单的语句,能编几个小程序,但是仅此而已。如果老师不给一个指引,学生就找不到继续深入学习的方向。
现在有个说法说“00后”这一代年轻人是“数字时代的原住民”,他们从小就接触电脑和手机,所以对数字技术玩的非常溜 —— 迪昂说,这其实是一个迷思。他们玩的是很熟练,但是如果没有专门的学习,他们玩的都是一些肤浅的应用,他们的计算机水平并不高,他们并不真的理解计算机。
这么说的话,让孩子自己摸索学习,就如同指望猴子拿打字机打出莎士比亚作品一样。生物演化没有方向,学习得有方向。学习需要有个引导,不然学生很容易就会陷入困惑止步不前。
科学学习的“积极”,是认知上的积极,而不是行为上的积极。
老师又是演节目又是弄教具教得挺热闹,但是如果学生在认知上没有感受到新知识的刺激,或者感觉这个刺激太强了跟不上,那再热闹也没用。反过来说哪怕自己默默地阅读一本书,外表没什么动作内心却是惊涛骇浪,那也是认知的积极。
有些教育家认为人有“学习风格”的区别:有的学生是视觉型的,适合多看;有的学生是听觉型的,需要多听 —— 这个“风格说”,也是个迷思。视觉跟听觉、调动更多感官,对所有人都有好处,都能加深印象,但是都有同样的好处,每个人在这一点上没有不同,而且都是有限的好处。如果认知不积极,光折腾视听感官没用。
那人与人学习能力的差异到底在哪呢?只有两个。一是学习的速度,这是由智商决定的;二是学习的动力,这是由好奇心决定的。
0x3:好奇心是学习的调控器
动物都有好奇心。为了寻找食物和异性伴侣,每个动物都有离开舒适区出去探索新信息的冲动。脑科学告诉我们,好奇心直接和多巴胺联系在一起。你每次去冒险、去旅行、参与一个新活动、有个新发现,大脑都会产生大量的多巴胺。这些多巴胺会加深你的神经元连接强度,以至于你连事情发生时候周围无关的细节都能记得一清二楚!
而且多巴胺还不仅仅是在好奇心得到满足之后才出来,好奇心本身就能产生多巴胺。比如你要去参加一个预计会非常有意思的旅行,旅行还没开始,在出发前几天,你在充满期待的那个时候,大量的多巴胺就已经让你很兴奋了。多巴胺是大脑的奖励,我们很享受好奇心。
而人类和动物不一样的是,我们对知识也有好奇心。哪怕这个知识和食物和异性都没关系,就是一个非常抽象的东西,比如一个数学方程,我们也可以产生强烈的好奇心。
学会一个新知识,你会获得极大的愉悦感。啊,我以前不懂这个道理,这回搞明白了,恍然大悟,原来这么回事儿!跟我想的太不一样了!哈哈这个认知的更新太爽了。英文世界把这种感觉叫做“mirth”,意思是欢乐和喜悦,我看最合适的中文翻译就是胡适说的那个“欢喜”:“怕什么真理无穷,进一寸有一寸的欢喜”。
那既然好奇心这么好,人类又自带超强的好奇心,为什么我们在学习过程中不总有好奇心呢?
因为喂料的速度不对。
好奇心,是保持学习速度的机制。迪昂把学习比喻成开一辆蒸汽火车。好奇心就相当于蒸汽机的那个节流阀,它的作用是保持发动机内部的压力。压力太小,节流阀就收紧,让压力增加;压力太大,节流阀放开,释放压力。蒸汽机压力不变,火车就匀速前进。我们学习也是这样,我们希望学习能够按照最适合自己的那个速度匀速前进。
好奇心,由“你想知道的知识”和“你现在已经知道的知识”,之间的那个差距,决定。
差距太小,你会觉得无聊,你希望差距再大一点;差距太大,你会感到茫然,你希望差距再小一点。好奇心取决于你对那个差距的评估,好奇心最大的时候就是那个差距对你来说最合适的时候,也是你的学习最愉快的时候。
所以我们不是希望学习材料越新奇越好,也不是越容易越好,我们希望它带给我们的意外程度恰到好处,保持最优化的好奇心和学习速度。我们需要学习材料在“熟悉”和“意外”之间找到最理想的一个点,这就是为什么我们以前讲过的那个研究里说,“最高学习效率 = 15.87%”。
这个好奇心的原理,给“因材施教”提出了更高的要求。因材施教不仅仅是根据个人的兴趣爱好选择学习内容,也是根据个人情况调整学习的进度。老师把学习材料喂给学生的速度,得正好适合他的好奇心水平才行。
这就要求学习进度应该根据学生本人的节奏走。
可是现在哪有这么好的条件呢?一个老师教几十个学生,课堂上统一的学习材料,对有些学生太简单对有些学生太难,这两种学生的好奇心就都……泯灭了。甚至有很多老师,不但不按照学生的节奏走,还生怕学生打乱他自己的节奏。特别有些小学老师不但不鼓励、而且还禁止学生在课堂上提问。他们只想让学生老老实实背着手坐在那里一动不动地“专心”听讲,他们想要的是在规定的时间内把准备好的内容讲完。这叫教学吗?这叫广播。
总结一下。学习需要积极参与,调动更深层的大脑活动。积极参与的状态由足够的好奇心决定,而好奇心由恰到好处的学习进度决定。
为了激发好奇心,你要用提问之类的方法调动他,你要刺激他,但是这里面有一个度的问题。学习内容不能随机安排也不能指望学生自己去发现。老师应该事先精心准备好一系列的、结构化的、由浅入深层层递进的内容,然后根据学生的掌握速度安排学习进度。
老百姓有个说法,说如果你最近特别馋什么东西吃,那就说明你的身体正好缺什么,这个在营养学上肯定不对,演化的机制让我们永远都爱吃糖和脂肪。知识好像也是这样,一般人可能总是对娱乐八卦之类的东西很好奇,但是对于学习来说,有结构、有层次的真知识,我敢说能让你的好奇点沿着从低往高的方向迅速转移。
要这么说的话,感到无聊其实是个好事儿。无聊感让我们等待好奇心,好奇心驱使我们寻求更高级的知识。
你最近对什么知识最好奇,学什么东西最快,也许就说明那是最适合你学的。这也许就是你的大脑在向你发出一个信号,表明它最近需要哪一方面的新知识去刺激它。
那么多书先读哪一本呢?别读无聊的书。太简单太难都不好,读你最感兴趣、读着最爽的书。别担心别人嘲笑你的品位。好奇心的原理表明,你的品位会改变的。
八、要测验,不要名次
我们读了斯坦尼斯拉斯·迪昂的《我们如何学习》这本书,应该全面反思现在的教育。官办教育系统,你说它到底是为了育人,选人,还是管人?它非常高效地把一部分人送上大学,它成功地给青少年安排了事儿做让他们不至于生活混乱。但你要说育人,现代教育的很多做法恰恰是背道而驰。
了解了学习的科学,你会发现现行的教育方法主要是为了老师教学方便、为了学校的组织和管理方便,而不是为了学生学习方便。我认为脑科学应该剧烈地改变我们的教育方法。
这一章我们说的是学习的四个支柱中的第三个,反馈。一个关键观点是反馈提供了意外,而没有意外就不能学习。
0x1:有意外才有学习
心理学家讲刻意练习的时候就无比强调反馈的重要性,而脑科学更把反馈上升到了根本性的地位。
迪昂贯穿全书的核心思想,学习,是一个【猜想 → 反馈 → 改进】的过程。你的大脑是自身具足的,你对任何知识都已经有一个思维模型,你用你心中的模型对那个知识做一个预测。然后你把外界的反馈和你的猜测进行比较,然后你改进你的模型。学习是一个贝叶斯过程,反馈是其中的关键一步。
理解了这个思想,你才知道什么是反馈。只有当这个反馈对你来说是一个“意外”,让你调整了自己的思维模型的时候,才是学习。比如我问你鲁迅的本名叫什么,你非常肯定地说是“周树人”,我说你答对了。这个反馈对你是无效的,因为你的思想没有任何改变,你没有学到任何东西。
但是答对了不一定就不是反馈。比如我再问你一个问题:钱锺书是清华毕业的还是北大毕业的?这个问题你拿不太准,但是你有一点印象,觉得清华的可能性比较大,所以你说是清华。我说,你答对了。
这对你是一个有效反馈。你心中模型的参数改变了:可能你之前估计清华的概率是 75%,现在变成了 100%。这是一个广义的意外。只要能调整你估计的概率,就叫意外。
所以说不一定非得出错了才叫反馈,验证了一个猜想也叫反馈。能降低不确定性的任何信息都是有效的反馈。学习,就是降低世界在你心目中的不确定性。世界的确是充满不确定性,但绝不是一切都不确定,否则我们学习就没有意义。
学习的过程就是消化意外的过程。我们前面讲过,刚出生没多久的小婴儿遇到意外的事情就会盯着看,他们本能地想从意外中学到东西。人脑对意外非常敏感。
我们对意外的敏感不仅仅发生在前额叶皮质这样的高级区域。大脑所有的区域,都在侦查意外。
这意味着要识别意外,需要你已经有一个相关的思维模型。三国时期有句话叫“曲有误,周郎顾”,说周瑜这个人精通音乐,你弹琴弹对了他可能感觉不到,你要弹错了,他立即就能察觉。
其他脑区,视觉、句子、设计,都是如此。有时候低级区认为没有意外,高级区还会觉得没有意外本身也是一个意外……
大脑的学习和 AI 的学习在“意外”这个意义上是一样的,意外是学习的资源。
而意外只是信息而已,所以反馈是个中性词。并不是非得遭遇失败才算反馈,为了长一智不一定非得吃一堑。调动更多的“感”、老师演个节目、加深印象,那些都是为了强化记忆的外围功夫。真正从修正思维模型来说,人脑和AI需要的反馈是一样的。
反馈只有两点最重要:一是及时,二是准确。
做到这两点,有监督式的学习就是最高效的。同样的道理,在公司管理和组织建设上也是类似的,这也是管理学大师德鲁克强调的“反馈式管理”。
可是既然反馈的道理这么简单,我们在平时的教育和学习中合理使用反馈了吗?远远不够。
0x2:反馈不是惩罚
咱们设想你是一个家长,正在教女儿做数学题。这是一道选择题:请问两个奇数相加,得数是奇数呢,还是偶数?女儿拿不太准,她试探地说,奇数加奇数等于……奇数?这是错误的答案,请问你怎么给反馈。
很多家长在这时候一定要说一句“你错了”。千万别这么给反馈。是,孩子确实错了,但是你这么说她会感到你是在针对她。她会产生情绪的剧烈波动,会自我怀疑。正确的做法是简单地告诉孩子奇数加奇数等于偶数,然后她要是不明白就给她讲讲为什么。
反馈只要及时准确就行,不需要情绪波动。为什么呢?难道有情绪波动不是让人印象更深吗?是印象更深,但是你不想要这样的印象。被人指出错误会本能地产生恐惧心理,而恐惧会让大脑的可塑性下降。一个被指责的大脑将会是封闭的大脑,根本不想学习。学习的第一步是积极主动的预测,而预测需要大胆,需要放松的环境。你要让孩子学习就不能让她把头脑缩回去,得给充分的安全感。
那我们想想,学校里的考试,是这样的反馈吗?考试给学生提供的不是正确答案的信息,而是一个分数和一个排名。
如果你经常排前面你可能喜欢排名,这有点像体育比赛,很刺激。但是对大多数学生来说,考试不是理想的反馈。首先它不及时,等过了好几天分数出来你对考场上那道题已经不感兴趣了。更重要的是它不具体,成绩并不能告诉你哪块知识点比较弱、为什么答错了、需要怎么改进。
特别对于靠后的学生,排名简直就是侮辱。我们想想这个情景是不是有点残忍,这位同学每天坐在教室里学习,被学校一次次地证明自己不行!有些学生考试都考出 PTSD 来了,现在就有一种症状就叫“数学焦虑症”,一拿到数学题就紧张害怕,因为每次都答不好数学题。这还是学习吗?
如果学校的目的是为了服务学生,考试制度绝对不应该这么设计。我们恰恰应该借鉴一下游戏的做法。任何一个电子游戏,一开始的关卡总是非常简单,恰到好处地让新手既能过关、又保持兴趣。在游戏的进行中再一点点地增加难度,而设计师的目标总是尽量让游戏难度和玩家的水平相匹配。闯关失败了你总是可以再打一遍,一直打到你能熟练过关。你过关了游戏会用更新奇的任务吸引你玩下一关,你没过关游戏绝对不敢否定你,恨不得多给几个提示好把你留住。游戏这样设计,因为这符合人性!
美国的学校在期末考试这一点上做得可能更人性化一点。它没有全班排名也不公布分数,同学之间互相不知道成绩。家长在期末会收到一份详细的报告,知道自己孩子在全学区甚至全国的同类学校中大概是个什么水平。报告中各个学科被分成了若干模块,能显示孩子哪块比较强哪块比较薄弱,是阅读不行、语法不行还是写作不行?你能有个大概的概念……
但是这些距离脑科学要求的教育方法,还差得很远。
0x3:测验的作用
除了把反馈当惩罚之外,迪昂认为,世界各国的教育有个最根本的问题,那就是测验……太少了。
如果你能以不悲不喜、对事不对人的心态面对测验,测验是最好的反馈。学了一个知识点不应该等几个月后的期中或者期末考试再测验,应该在一天后、一周后、一个月后这种渐渐拉长的间隔期进行多次测验。答错了,你知道自己没学明白可以立即改进;答对了,也许你的猜测得到证实;就算你是非常有把握地答对了,拉长间隔式的测验也是唤醒记忆和巩固记忆最高效的方法。
有人做实验证明,用同样的时间教同样的内容,分 8 次讲课就不如讲 6 次测验 2 次,更不如间隔式的讲 4 次测验 4 次。最好的办法就是讲一个知识、当天练习一遍、晚上睡一觉、第二天立即测验,然后过几天再测验、然后过更长的时间再测。
这个方法已经被无数的研究所证明。你是学英语背单词也好,是学数学学历史也好,让测验时间占到总学习时间的一半是最科学的。
为什么测验这么好呢?因为测验最符合 猜想 → 反馈 → 改进 这个模式。间隔一段时间等你对那个知识稍微有点淡忘了的时候,意外感正好又回来了,是测验的最佳时机。你每次测验都对知识有新鲜感,简直是“人生只如初见”,一直到彻底掌握为止。你说这样的学习岂不是很愉快吗?
所以从脑科学角度来讲,教学进度不应该按照课本的章节顺序匀速前进,而应该是把内容给打乱。刚学点新知识、测验了新知识,马上又复习旧知识,让新旧知识按照最符合大脑认知习惯的方式交替滚动前进。
在微观层面,反馈最好是像游戏那样,一旦发现薄弱点,给你讲一遍对的,马上再出一道类似的题目让你练习一遍,然后第二天再测一遍。
九、睡眠黑客
晚上睡觉的时候大脑并没有闲着,是在回放白天的经历,把海马体的信息传输到更深的脑区,巩固白天所学的知识。我们已经知道这些,但是迪昂没有让我失望,他提供了更有意思的脑科学知识,而且还提供了比较极端的方法。
0x1:技能的自动化
我们先来看一张图,说的是刚刚学习认字的一年级小学生是如何阅读英文单词
一年级小学生读一个单词要调动好几个脑区。他们不但需要阅读的脑区,而且需要前额叶皮质参与中央控制,需要空间注意力随时调整眼睛盯着的地方,为什么呢?因为他们是一个字母一个字母地读单词。
体现在右边这个曲线上,就是一年级小学生读一个单词需要的时间,和单词的长度是成正比的。如果这个单词只有两个字母,他们大概需要 0.9 秒,如果是 5 个字母,则需要 1.4 秒。这恰恰也是阅读障碍症患者的读法,他们的速度还不如一年级小学生。你可以想象,这些人读书可以说是用手指指着一个个的字母读,非常费力。
然后咱们再看二年级和三年级小学生的阅读,
首先他们用到的脑区很少,并不需要调用中央控制系统。特别是三年级学生,阅读时间和单词长短已经几乎没关系了,等于是扫一眼就知道那个词是什么。这是一种无意识地操作,是阅读的自动化。形成自动化,说明大脑里已经为单词和常见的字母组合长成了专门的神经回路,单词已经深深烙印在大脑里面了。
我们读中文也是如此。你不需要先辨认偏旁部首、再一个一个判断每个字都是什么,你甚至都不需要辨认几个字的组合:“中华人民共和国”,你扫一眼就知道这七个字说什么。更熟练以后你甚至都不用一句一句、可以一片一片地阅读,像罗胖更是可以“刷书”:眼睛一扫,几个关键词自动就蹦出来了。
其他的技能也是如此。打字、演奏乐器、开车,刚开始学的时候都需要前额叶皮质的参与,你是非常有意识地做动作,方向盘怎么打,什么时候踩刹车,动作非常僵硬。等到熟练以后你就可以无意识地完成这些操作,技能已经成为你的“程序记忆”。
自动化对大脑非常重要。从基层的小事中解放出来,你才能去思考大事。初学者手忙脚乱,高手云淡风轻。
所以,一个人在学习中付出了注意力,积极地参与,调动了好奇心,获得了有效的反馈,这些还不够:他还需要把学到的知识巩固到大脑里,变成快速的、自动的知识才行。
那巩固是如何发生的呢?当然是训练。你需要通过重复训练达到熟能生巧。但白天清醒状态下的训练只是一部分,还有更重要的一部分,是睡眠状态下的训练。
0x2:睡眠的科学
你可能经历过或者听说过这样的事情。教一个孩子比如说弹琴,白天你陪着他练了那么长时间,他就是不会,可是晚上睡了一觉,第二天突然会了!他是怎么会的呢?这是因为大脑在睡眠中把白天的训练重复了很多遍。
这个效应已经被很多实验证明了。比如有个实验是这样的,两组学生接受同样的训练,同样是间隔八小时之后测试。第一组是早上8点学习,下午4点测试;第二组是半夜学习,第二天早上测试。结果因为第二组中间有个睡觉的过程,这组的成绩就明显更好。
而且你白天学的东西越多、经历越丰富多彩,你晚上就越想睡觉,睡得就越好,因为你需要更多时间去回放和消化吸收白天所见所学的东西。白天疯玩一整天,晚上大睡一场,这真是美好的一天。
而且睡眠中的回放式训练很可能比白天的训练更有效。关于睡眠科学,有两个知识点,可能会让你惊讶。
- 一个是睡眠对白天经历的回放,是非常精确的回放
科学家让一只老鼠白天到处运动,那个路线它只走了一遍,但是海马体记住了。海马体中有一套专门记录位置的神经元。晚上老鼠睡觉的时候,科学家观察它的脑神经活动,发现老鼠海马体的那些位置神经元先后活跃的次序,完美地等于它白天行动的路线。精确到什么程度呢?你把老鼠梦里的神经活动录下来,用计算机解码,能够反推它白天去的是哪些地方。
- 另一点,睡眠时候脑神经活动的回放速度,是白天实际经历速度的20倍
你可能还记得《盗梦空间》(Inception)里的那个设定,说服用普通镇静剂能让梦的速度是生活速度的 12 倍,强效镇静剂能达到 20 倍 —— 其实不用镇静剂,你正常睡觉就是 20 倍。
这意味着什么呢?意味着你白天经历过一次的事情,睡眠中可以回放很多很多次。你白天练习了10遍,睡眠中可以以同样的精度练200遍。那你说睡眠能不重要吗?
当然因为你是在睡觉,你并不记得自己回放了白天的经历,这些都是科学家做实验和扫描大脑观测出来的结论,但是你的大脑记得,你的程序记忆记住了,你的技能长上了。我们有时候能记得的是做梦,而梦通常都跟白天经历不一样,有很多离奇的情节,那这是怎么回事儿呢?
这就是睡眠的另一个作用,那就是建立新的思维模型。我们白天接收到的信息很有限,不像 AI 训练可以使用海量的信息,但我们的大脑在睡眠中把信息给压缩了,快速播放,它不仅仅是简单回放,还有混合播放。这种混合播放就好像搭积木一样,能把新信息和旧信息给联系起来,重新排列组合。
往往这种排布能给你带来白天没有的洞见。梦境不会直接给你答案,但是可以给你埋下答案的种子。有时候一个问题你白天绞尽脑汁不知道怎么办,一觉睡醒再一想,突然想明白了,那就是因为你在梦中已经尝试过各种连接方案。梦,是大脑在模拟现实,在做思想实验。
睡眠让我们在训练素材有限的情况下,不但大大增加了训练的次数,还变着花样把玩了那些素材。所以现在研究者也在设法让 AI 做梦……
那我们怎样才能进一步利用睡眠的好处呢?
0x3:破解睡眠
科学家对睡眠周期的理论现在还不是完全成熟的。迪昂说,现在大家比较认同的说法是有两个睡眠阶段最关键。
- 一个是“深度睡眠”,这时候大脑发出一个“慢波”,大概每秒波动 40 到 50 次。深度睡眠是巩固知识性的学习的时候
- 另一个是“快速眼动睡眠”,也就是 REM 睡眠,大脑活动很快速,容易做梦,是巩固动作性的学习、加强程序记忆的时候
我们有四个利用睡眠学习的方法。这些方法都不是随便推测出来的,都经过了实验的检验,但是我得强调一句,有些实验验证还在进行之中,具体哪个更有效、效果好到什么程度,目前并没有精确的结论。
- 第一个方法最简单,就是多睡觉
以前人们说早睡早起身体好、一日之计在于晨,那个肯定适合农业社会,在现代社会不一定科学。特别是今天很多脑力劳动者都喜欢晚睡,那你既然晚睡,又需要保障睡眠,就应该晚起。
从脑科学角度,现在的上学和上班的时间可能是偏早了。美国有很多中小学已经改成了 8 点半、甚至 9 点开始上课,让孩子们多睡会儿。除了对学习有好处,还有研究表明,晚点上学还能降低肥胖和抑郁的可能性。
午睡也是个办法。研究表明幼儿园的小孩上午学完知识,中午如果有午睡,巩固知识的效果会好很多。
- 第二个办法是你应该尽量在睡觉之前、或者离睡觉比较近的时候学习
如果是上午学的知识,到晚上睡觉之前因为已经过去了十来个小时,你已经淡忘了一部分。你要是下午学,大家都比较困效果也不好。晚上睡觉之前学、学完马上在睡眠中巩固,这个效果最好。
当然学校不可能这么安排学习时间。但是你总可以在睡前读读书、把白天所学的重点回顾一遍,以期做个“好”梦。如果你是个自由职业者就更好办了,白天应该用来处理一些日常的、社交的事物,晚上夜深人静的大好时光应该用来读书学习。
- 第三个方法就比较激烈了,是直接给大脑来一个物理刺激
既然深度睡眠对巩固知识最有效,而深度睡眠又伴随着一个慢波,那我们能不能在睡觉的时候从外界给大脑来一个慢波的刺激,引导大脑更多地处于深度睡眠状态呢?
这有两个方案,都需要你在睡觉的时候戴一个头盔或者头环之类的东西。一个方案是直接对你的头颅进行电刺激,一个方案是播放某种慢波声音。这两个方案现在都有产品,但是我不知道哪个品牌好,也不知道效果到底如何。
- 第四个办法很有想象力,是想办法在睡眠中唤起你白天特定的记忆
比如一个学生白天上了两节很重要的奥数课,还上了一大堆她认为不重要的别的课。回家写完作业看了一会儿电视剧,叫《还珠格格》。那你可以想见,她肯定更希望在睡眠中回顾那两节奥数课的知识,而不是反复播放《还珠格格》。可是她怎么才能选择自己的梦境呢?
科学家测试成立的一个办法是这样的。上奥数课的时候,老师可以在教室里弄点香水,散发出某种特定的玫瑰花的香味。学生晚上睡觉的时候,也给她闻到同样的玫瑰香味。这个香味会触发她大脑相关的神经网络,开启对奥数课的回放。
当然我不知道这个方法如果用多了会不会让大脑适应了香水味道就不灵了,又或者必须每天换一种香水。另有一个实验的办法是白天学习某些特定知识的时候播放一种声音,然后在睡觉的时候放同样的声音,这个也能加强巩固知识。
请注意!所有这些方法都只是用来巩固白天学习的知识。睡眠状态下你不能学习新知识,学新知识,你必须使用专注力、积极参与、有效反馈那些办法,而那些在睡觉的时候是做不到的。有人说睡觉的时候听有声书或者听外语有用,那个已经被科学否定了。