【思维论01】如何让自己像打王者荣耀一样发了疯、石乐志的学习？

该文章转载自：https://www.cnblogs.com/y1ran/p/12155728.html，有点意思

这是我思维导论的第1期，灵感来自另一位博主。视频做完后会接着更新算法系列专栏~

我们玩王者荣耀，究竟是为了什么#

对于非职业玩家来说，打王者荣耀，是为了什么？除去消遣时间这个普遍因素，是为了推掉对方水晶？还是拿到5杀？抑或只是为了和朋友一起，享受在游戏中畅快地倾泻技能的感觉？

这些都不是本质原因，单次的获胜，或者5杀，并不能促使我们不断打开下一局游戏。本质上，我们对游戏的快感，都是大脑对游戏反馈机制的一种奖励，它由我们的多巴胺所决定。

人们常以为多巴胺等同于快感，但事实并非如此。多巴胺(dopamine)只是脑垂体腺中的前体物质，它不是快感本身，而是对快感的预期，或者说，对快感的追求。当你获胜，或者拿到击杀，你的肾上腺素、催产素以及内啡肽分泌增多，你会感到愉悦、兴奋，当你被击杀、水晶被推，你会感到沮丧、愤怒。但对于大脑神经来说，这些情绪只是暂时的体验，突触上的电信号一触即走，不带走半点云彩。而多巴胺所构成的信号机制，才是决定你会不会接着玩下去，并且以后还会打开游戏的关键。

换句话说，多巴胺赋予你沉迷游戏的欲望。在多巴胺的信号机制中，它并不会让你感到“我玩王者荣耀很爽”，而是让你觉得“这把我能翻”、“下把一定赢”“再赢一把排位我就升段位了”。

也正由于多巴胺是直接作用于大脑的奖励回路，使得一个人即使对某件事感到厌恶，也会在多巴胺的作用下去做这件事。于是，一次又一次地，我们打开手机或电脑，点开了游戏，进入了排位，周而复始。

这，就是我们玩王者荣耀的根本原因。

反馈回路#

反馈回路是一种“信号-动作-反馈”机制，可以简单描述为一个五元组系统

· 环境 – 你的交互环境，比如游戏

· 状态 – 你所处的状态，比如击杀、被击杀、以及获得胜利

· 动作 – 打开游戏，操作游戏角色，或者关掉游戏

· 更新 – 提高或降低你做出某个动作的概率。概率-可以理解为大脑信号的强弱

· 奖励 – 获胜的愉悦，也就是快感预期

并且满足以下4个规则：

当你进入游戏，你会以不同的概率，在每一个时间点上，做出不同的动作
你的动作决定了下一刻你所处的状态，每个状态都对应一个奖励，也即大脑所获得的反馈
每一步动作，都不只影响下一步的反馈，也可能影响更远的状态和反馈
反馈可以为正，也可以为负

举个例子，作为一个刚玩MOBA类游戏的玩家，你只知道要推掉敌方水晶。当你进入游戏（环境），你孤身进入敌方防御塔范围（动作），被击杀（状态），你的大脑感觉失望（奖励）。于是，当你从泉水复活（环境），你孤身进塔的动作概率被降低（更新），你选择跟随兵线一起进入（动作），推掉了防御塔（状态转移），并在数十个类似动作后，最终胜利（更远状态），你获得了满足（奖励）。

根据奖励结果，大脑判断第二种路径更好，因此下一次循环，你选择跟随兵线的概率会继续增加，并随之做出更多正确操作，最终加强这个正向反馈回路的效果。这，也是职业选手得以脱颖而出的原因——他们的反馈机制更为迅速，且响应更快。

强化学习#

这个反馈回路，就是构成人工智能中强化学习理论的基础机制。强化（reinforcement），是指在不断尝试中，个体所学习到的反馈回路在不断更新，并最终优化到可能目标的过程。

它和监督式机器学习一样，是构成人工智能的基石。

监督式机器学习，就好比你做历年真题，它由往年题目（旧数据）和答案（标签）构成，通过做题，你获得了从题目和答案中学习到的解题方法，并将这种方法应用到下一次考试中去。本质上，它学习出的是问题和答案之间的关系，这种关系就是模型。机器学习，只是把我们在过去学习中所做了十几年的事情，复制到了计算机上。

而强化学习，学到的是反馈回路。反馈（reward），即用来判断这个行为是好是坏。一个优秀的强化学习系统，甚至不需要旧有的数据，就可以直接进行学习。

强化学习的反馈有延时，即有可能走了很多步以后，才知道以前的某一步的选择是好还是坏，而监督式机器学习只学习方法，不考虑时间。这样的思考方式其实并不与现实相似，因为我们所做的每个选择，所处的每个环境，都与过去的许多行为有关，它们极其复杂，没有一个固定、线性的模式可被学习，但通过强化学习，可以尽量逼近可能存在的完美模型。

从生物学的角度讲，强化学习更符合人类的进化方式，从古代的尼安德特人就已经开始：不符合正反馈回路的行为或族群，注定被“环境”所“更新”，也意味着淘汰。人类之所以进化成人类，是因为除了总结旧有知识并发现规律（机器学习）外，还会不断尝试和探索（强化学习）。

现如今，最完善的强化学习系统，就是谷歌的AlphaGo。每日与自己对弈数十万局，根据对弈结果，强化棋盘落子的正反馈回路。如果说，监督式机器学习是一种方法迁移，那强化学习则是方法探索。在某种意义上，强化学习更接近想象中的人工智能。

现在，让我们回到问题中来。

学习，究竟是为了什么？

不打游戏，是为了更好的学习。更好的学习，是为了更好的生活。那，什么是更好的生活？可以痛快地玩游戏，算不算更好的生活？我们从小被教导要好好学习，却从来没有真正思考过为什么要好好学习。如果连成因、机制都不了解，看再多的思维教学、学习导论，也没有办法让自己真正地执行“好好学习”这件事。

让我们思考一个问题：

“我们真的厌恶学习吗？”

其实，用强化学习的角度看，学习和玩王者，本质上没有区别。

学习是一个枯燥的过程，你要背单词、背公式，要写作、还要练习。玩游戏也是如此：你要记忆每个英雄的技能、走位技巧、出装顺序，也要通过很多次的对局来练习、提高技能。

区别在哪里？在学习系统中，它们都是同一种东西，即“动作”，动作无所谓枯燥和有趣，关键看它所处的“状态”和预期的“奖励”。

人类厌恶枯燥的东西，所以当学习变得索然无味，我们就会讨厌学习，这是天性。我们在学习时，并不能获得和做爱一样的快感，否则的话，没有人会讨厌学习。但是，有的人却能坚持学习并乐在其中，为什么？答案是反馈机制。

当学习的“动作”带给人的长期收益为正，就会获得我们所说的快感预期，也即前文提到的多巴胺。如果不靠多巴胺，只靠意志力去坚持学习，会怎么样呢？就像不断绷紧一根弦，强行违背身体的感觉，到最后早晚会断掉。

我们绝大多数人，没有移山填海的毅力，因此这样的学习方式，是不科学的。大脑发出指令的动机其实和海洋馆的海豹一样，是为了眼前那一条小鱼干，顶一次球，给一条鱼，再顶一次，再给一次。也就是说，只有不断收到正向的反馈，才会自然而然地保持前进的动力。

本质上，这只是把“学习”动作的反馈回路，搬到了游戏上来。搞清楚这点，我们就可以思考，如何让自己像打王者荣耀一样的学习

反馈强化#

先让我们回到游戏本身。游戏带给玩家的反馈是否足够，是决定一个游戏是否有趣的基础。而游戏厂商在做的事情，就是将反馈回路，竭尽所能的加强和加快，也即提高动作的收益，比如推掉水晶，你获得的不只是胜利，游戏分数也会提升。或者增加不确定性，让玩家耗费更多次的尝试，来确定反馈回路，比如部分皮肤的随机性。

简单来说，常见的游戏，都是基于以下三种强化模式，来对游戏结果的反馈机制进行加强：

一种是“固定比率强化”(Fixed Ratio)，比如“打败10个哥布林一定可以升1级”，“连胜10场一定可以升段”
一种是“固定时距强化”(Fixed Interval)，比如“《皇室战争》里的白银宝箱3小时后一定可以解锁”
还有一种“不固定比率强化”(Variable Ratio)，也就是“《阴阳师》每抽一次卡，有1%的几率抽到SSR”

这三种方法，将强化学习中的不确定性奖励，固化成为确定性收益，比如分数、卡牌、等级。

分别为游戏厂商带来了留存率，在线人数，和净收入。

我们该怎么做？#

学霸和学渣的区别，就在于对快感的预期不同。预期不同，形成的反馈也就不同。成为学霸，需要不断强化自己的反馈回路。最基本的，从以下三点做起

1. 缩短反馈周期#

反馈周期太长，意味着半衰期长。半衰期是什么，下期文章我会讲。这里只需要知道，反馈周期太长是大多数人无法坚持的主要障碍。举个例子，有的人高中时成绩很好，为何到大学时成绩就一落千丈？有人说，是因为高考之后人松懈了，就容易变笨。很可惜，这个说法或许有道理，却并没有研究结论支撑。真正的原因，其实是反馈周期变长了。

在高中时，一个月会有3-4次测试，你努力学习一个周，就能看到努力的效果，班级名次很容易进步。接着，同学吃惊，家长老师表扬，你觉得特别很开心，打了鸡血一样继续学习，这种感觉可能会持续几天，还没等它消退，下一次考试又来了。不出意外，你会接着获得下一次正反馈。在这样的反馈回路中，“动作”带来的“奖励”被极大加速，整个系统变得完全正向。

上了大学以后，认真学习一个学期，才能有一个好的GPA，这个反馈周期变长了几倍，而且也很少有人因为GPA受到表扬，因此，大多数人坚持不来。取而代之的，很多人习惯考试前1个周开始执行“学习”动作，因为只需要1个周就可以获得相当可观“奖励”，比如及格。所以，想办法减少你的反馈周期，比如，将大目标分解为小目标，会更容易获得成就感。

2. 增加反馈强化#

我们提到过三种反馈强化模式，那么把“游戏”替换成“学习”，我们要做的是什么呢？可以是考试累计进步10名就请自己吃烧烤，也可以是隔壁班的小爱刮目相看的“SSR”，又或是再看3小时书就去打王者荣耀。

对应到游戏厂商的三种收益上来，就是提高学习留存率，延长学习时间，增加学习收益。

3. 调整反馈难度#

斯坦福大学行为科学研究人员曾发表过一篇论文，大意是玩家在高难度游戏获胜的那一刻，大脑多巴胺回路会异常激活。也就是说，适当的高难度游戏，能够最大化地激活反馈回路。这也是各大竞技类游戏排位赛机制的由来，通过匹配不同难度的对手，即不会让你一直输下去，也不会让你永远赢。它们塑造一种“升段”“掉段”的奖励机制，让你的反馈回路一直处于半激活状态。

在学习中，如何设置难度，需要根据个人情况制定，比如，下一次考试提高10分，和成为班级第一，就是两种不同的难度。难度可以递进，既不要太简单，也不能太难。