读《暗时间》的很多摘抄与很少感悟
一、如何思考与学习
1.思维之外的道理与知识,都是零
无论是从书上看到的,别人跟你讲的还是通过其他途径获得的道理,只要不是自己亲身经历过的,就很难真正理解,变为自己思维的一部分。
2.永远不要相信,“只要你……就一定能……”
宇宙是不稳定的,事情的结果受太多因素的影响,不仅仅是自身因素,环境也很重要。努力不一定会成功,坚持不一定会胜利,好好工作不一定能升职加薪。
但是自身因素比外界因素更加可控,改善自身因素是必要不充分的
3.反思
我们常常发现别人的问题,却难以发现自己的问题,因为我们很少会把自己当作目标去思考。就像看着别人的代码时抱怨怎么写得这么烂,却经常忘记看看自己写的代码是否就是无懈可击的
4.多问自己
学习和思考的过程,或者是写博客的过程,多问自己:
1)我的问题是什么(以免在学习中偏题)
2)到现在为止,我有什么收获(阶段性总结)
3)设想自己正讲东西给别人听(避免思维过程中的“可能就是这样吧,不管了”,讲给别人听所有模糊的知识都会受到别人的挑战)
4)设想需要讲给一个不懂的人听(写博客的时候自己的大脑可能处于当前问题的上下文中,过几天再回头看看自己写的,作为一个普通读者是否很多语句都不能理解)
5.有选择的读书
1)感兴趣的优先读
2)技术性较弱或信息密度较低的快速略读
6.学习新知识的时候
学习一个新知识的时候,时时把“最终能够写成一篇漂亮的博客”放在大脑中提醒自己,就能有助于在阅读和实践的时候有意无意地整理出知识的结构、本质和重点,经过整理的知识更容易被理解,记忆和提取
7.先入为主的思考误区
只要一种解释对自己有利,我们便不想去思考和反驳,再漏洞百出的事情只要有一种解释对自己有利,我们就认定其一定是的;而对自己不利的解释,我们要么忽略,要么拼命去推敲去抓其漏洞以让自己完全推翻该解释。比如,被传销洗脑的人。
二、数学之美
读《暗时间》,最大的感悟不是那些大道理,而是在书的番外篇中作者将概率论中的贝叶斯方法以一种优美的方式讲述出来,即使数理化学得再差的同学也能在作者的引导下,一步步窥探数学之美。要是教科书不是照本宣科而是都像这样用心去引导读者就好了。
开始做题:
一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。
(1) 随机选取一个学生,TA穿长裤的概率是多大?
P(穿长裤) = P(选取的是男生,TA穿的是长裤)+P(选取的是女生,TA穿的是长裤) = 0.6 + 0.4*0.5 = 0.8
这个就是前面说的“正向概率”的计算。
(2) 然而,假设你走在校园中,迎面走来一个穿长裤的学生(性别未知),TA是女生的概率是多大吗?
假设学校里面人的总数是 U 个。
60% 的男生都穿长裤,于是我们得到了 U * P(Boy) * P(Pants|Boy) 个穿长裤的(男生)(其中 P(Boy) 是男生的概率 = 60%;P(Pants|Boy) 是条件概率,即在 Boy 这个条件下穿长裤的概率是多大,这里是 100% ,因为所有男生都穿长裤)。
40% 的女生里面又有一半(50%)是穿长裤的,于是我们又得到了 U * P(Girl) * P(Pants|Girl) 个穿长裤的(女生)。加起来一共是 U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) 个穿长裤的。
所以答案是U * P(Girl) * P(Pants|Girl)/U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl),约分得
P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]
从具体到一般化:
P(B|A)
= P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]
= P(A|B) * P(B) / P(A)
= P(AB) / P(A)
P(B|A) = P(A|B) * P(B) / P(A) 这就是贝叶斯公式
用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”
即我们要求
P(我们猜测他想输入的单词 | 他实际输入的单词)
这个概率,并找出使该概率最大化的猜测单词。
比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?
假设h = 我们猜测他想输入的单词,D = 他实际输入的单词。
则P(h | D) = P(h) * P(D | h) / P(D)
对于不同的具体猜测 h1 h2 h3 .. ,P(D) 都是一样的,所以在比较 P(h1 | D) 和 P(h2 | D) 的时候我们可以忽略这个常数。即我们只需要知道:
P(h | D) ∝ P(h) * P(D | h)
用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。
抽象出来:对于给定观测数据D,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然)的乘积。
先验概率里面的“先验”并不是指先于一切经验,而是仅指先于我们“当前”给出的观测数据而已
问题来了,我们为什么非得用贝叶斯公式呢,有其他方法吗?
一个常规的思考方式就是,选择离 thew 的编辑距离最近的。然而 the 和 thaw 离 thew 的编辑距离都是 1 (thaw和thew只有一个字母不同,the比thew少一个字母)。那我们就看到底哪个更可能被错打为 thew 就是了。我们注意到字母 e 和字母 w 在键盘上离得很紧,手一抖 the 就变成 thew 了。而另一方面 thaw 被错打成 thew 的可能性就相对小一点,因为 e 和 a 离得较远而且使用的指头不一样。
OK,很好,因为你现在已经是在用最大似然方法了,或者直白一点,你就是在计算那个使得 P(D | h) 最大的 h !!!
假如没有贝叶斯,你的思考方法是不是就不全面了!!!
所以我发现,这个公式对我们对思考方式很有用!!!
P(推测|观察数据) 取决于 先验概率和似然概率的积
举个例子。
今天下班回家的时候,看到门是开着的。心里第一感觉:“莫非有贼”,然后整个人就慌了。
此时,运用一下贝叶斯公式
P(有贼|门开了) ∝ P(有贼) * P(门开了|有贼)
P(有贼)取决于小区治安、是否是年末等情况;
P(门开了|有贼),贼来了的情况下,偷盗时或偷盗后将门打开的概率大吗?好象把门关上更保险点。
所以贝叶斯公式教导我们,当我们看到门开着的情况下,不要直接断定就是有贼然后自乱阵脚。
要先考虑下当地的治安情况、是否是年末等情况;再考虑有贼的话,贼把门打开后再偷盗或偷盗后不关门的概率有多大。
细细想来,好象P(有贼|门开了) << P(舍友回来后忘记关门了|门开了)。
我们似乎学习了太多知识,也许你看到这,或许会蔑视一番,切!这些不就是一些烂大街的大道理和大一大二的概率论嘛?!
但是你可曾将这些知识牢牢记住,并用其更新自己的思考方式、灵活运用到生活中?还记得上面的第一小点吗?
参考链接
《暗时间》