统计概率--概率分布

probability:一个事件发生的可能性的数值度量。

数据挖掘很重要的概念。

⚠️讲概率，谈的都是可能性，不谈确定性。

01概率--试验计数

概念

试验：产生明确结果的过程。单一的重复试验中，只有一个试验结果。
样本空间：一个试验的所有可能结果的集合。
样本点：一个试验的结果，样本空间的一个元素。
事件及其概率：
- 事件是样本点的一个集合
- 事件（发生）的概率等于事件中所有样本点的概率之和。

例子：

试验：

样本空间：8，9，10，9，10，11，10，11，12

样本点：共计9个。

事件：比如10，10，10这个三个样本点的样本相同，算作一类事件x。

事件发生的概率：事件x的发生概率就是3/9

计数法则，排列和组合（高中课本的知识）

多步骤试验：

一个试验分为连续的k个步骤，每个步骤有n种可能的结果，所有试验结果的个数：n1*n2...*nk.

组合：

从N个物品的集合中，随机拿出n个。

N！= N*(N-1)*(N-2)*....*2*1

n! = n* (n-1)(n-2)*...*2*1

排列 permutations，

从N个物体的集合中选取n个物体，考虑排序。
去掉n!
更好理解，第一次从N拿个，第二次从N-1里拿，拿n次。N*(N-1)*(N-2)*...*N-(n-1)

概率的基本性质

事件的补（集）：一个事件A, 事件A的补是指：由所有不属于事件A的样本点组成的事件。

P(A) + P(A^c) = 1 ⚠️它们共同构成了样本空间。

加法公式： p(AUB) = P(A) + P(B) - P(A∩B) ⚠️∩是交集， U是并集。

互斥事件：事件A和B之间没有共同的样本点。 p(AUB) = P(A) + P(B)

02条件概率 P(A|B)

贝叶斯定理用到了条件概率。

联合概率：两个事件的交的概率。

事件A发生的可能性经常会受到另一个相关事件发生与否的影响。此时事件A发生的可能性叫条件概率，记作P(A|B)

P(A|B) =P(A∩B) / P(B)
事件B发生后，事件A也发生的概率。即：联合概率 / 概率B。

例子：

由图可知：

样本空间： 100个学生。
样本点：每个学生。
事件： {"男生"：40个， "女生":60个}。
事件： {"通过": 80个, "没通过"：20个}。
事件男生∩事件通过--样本点：30个。因此P(男生∩通过)= 30 /100 = 30% --联合概率
条件概率：P(男生|通过) = 0.3/0.8 = 0.375。
- 白话解释：通过的人中，男生占百分之多少：37.5%。
- P(通过|男生)的意思则是：男生中，有百分之多少是通过的。 0.3/0.4 = 75%

独立事件（不存在条件）

P(A|B) = P(A)
事件B是否发生，不影响事件A发生的概率。即事件A发生的可能性不受事件B的影响。
乘法公式（且是独立事件）：
- P(A∩B)= P(A)*P(B)=P(A)*P(B|A)=P(B)*P(A|B)
- 用来计算两个事件交的概率。
乘法公式（不一定是独立事件）：
- P(A∩B)= P(A)*P(B)

独立事件是一个假设，比如有1000样本的空间，假设这1000个样本互相独立，互不影响。

03贝叶斯（数据挖掘中会用：朴素贝叶斯）

特定事件X给出一个初始的概率，也叫先验概率，即通过历史经验得到的概率。

从样本，试验中得到了有关该事件X的补充信息，根据这些信息计算修正概率，得到后验概率

例子：https://www.cnblogs.com/chentianwei/p/12488891.html

P(A1|B) = P(A1∩B) / P(B)

= P(A1∩B) / [P(A1∩B) + P(A2∩B)]

= P(A1)*P(B|A1) / [P(A1)*P(B|A1) + P(A2)*P(B|A2)]

(利用了乘法公式。分母是全概率)
第一行，条件概率公式
第二行，分母用到事件的补集的公式。
第三行，用到独立事件的乘法公式。形成一个贝叶斯公式。

要求倒背如流！！！

04 离散型概率分布

随机变量：对一个试验结果的数值描述

离散变量和连续变量

离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.

反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.