概率统计+信息论概述
1 从零整理概率、统计、信息论
知识的学习教授应该有两种模式:“瀑布模式”或者“迭代模式”。教科书一般是瀑布模式,会导致在对学科没有整体宏观认识的时候,而过早掌握很多细枝末节的东西,这样反而会对整体的把握形成一个障碍。相较而言,迭代模式是先做一个总论,再逐渐细下去。
概率论最基础的问题:如何用数学的方式,对不确定性或者说对可能性这件事进行描述。
想象我们自己是概率论的建立者,面对这个问题如何解决呢,下面是一种思路:
(一) 版本1
最直接的方式就是建立一个表格,把所有事件列举出来,每个事件对应一个数值,这个数值代表这个事件发生的可能性。
序号 | 事件 | 数值 |
---|---|---|
1 | 事件a | 数值1 |
2 | 事件b | 数值2 |
3 | 事件c | 数值3 |
... | ... | ... |
有了这个表,就可以定义一个函数\(f\),输入一个事件\(S\),返回一个数值\(K\):
为了保证该函数表示可能性,还需作一些具体的限制:
-
① 输出结果的数值要满足可能性大小的相对关系,事件a的可能性 > 事件b的可能性 \(\Longleftrightarrow\) 数值1 > 数值2
-
② 数值要满足事件的包含关系,事件c = { 事件a, 事件b } \(\Longleftrightarrow\) 数值3 = 数值1 + 数值2
到这里,版本1只是完成了对可能性这件事进行了数学符号化,并没有解决数学化这个本质问题。要想真正做到数学化,除了要保证定义出来的这个体系要能自洽之外,还要尽可能简约(奥卡姆剃刀原理:如非必要,勿增实体)。
根据奥卡姆剃刀原理的思想,可以看到版本1中,事件c是不需要单独定义的,只需要定义好事件a和b,那么c就可以被表示出来。也就是不需要将所有情况都表示出来,只需要把哪些不可再分的事件列出来,对它们的可能性进行赋值就行了。
(二) 版本2
序号 | 事件 | 数值 |
---|---|---|
1 | 原子事件a | 数值1 |
2 | 原子事件b | 数值2 |
3 | 原子事件c | 数值3 |
... | ... | ... |
此时可以将函数\(f\)重新定义为
这里又会出现一个问题,那就是原子事件如何定义。一般来说对于离散情况还是比较好判断的,但是面对联系情况就不好办了。因为面对连续情况事件可以无限细分,这时再通过原子事件作为思考的起点建立描述事件可能性的这个数学体系就会出现问题,无穷小的事件的可能性为0。
(三) 版本3
实数R | S | 数值K | $$\Longleftarrow$$ |
P(R) | ∫K |
实数1 | 点a | 数值1 | [1, 2] | ∫[数值1, 数值2] | |
实数2 | 点b | 数值2 | [3, 8] | ∫[数值3, 数值8] | |
实数3 | 点c | 数值3 | [1, 2]∪[3,8] | ∫[数值1, 数值2]+[数值3, 数值8] | |
... | ... | ... | ... | ... |
参考链接: