【学习笔记】统计分析
统计分析
一元线性回归
\(y=\beta_0+\beta_1x+\epsilon\)
参数估计方法——最小二乘
其中,\(l_{xx}=\sum(x_i-\bar{x})^2,l_{xy}=\sum(x_i-\bar{x})(y_i-\bar{y})\),协方差。
对于一元线性回归样本模型:
\(\hat{\beta}_0,\hat{\beta}_1\)是\(\beta_0,\beta_1\)的无偏估计;\(\hat{\sigma}^2\) 是 \(\sigma^2\) 的无偏估计。
其中,\(SSE=\sum(y_i-\hat{y}_i)^2\)是残差平方和。
方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。协方差衡量两个变量之间的相关性程度。
对于一元正态线性回归的样本模型:
\(\hat{\beta}_0,\hat{\beta}_1\)是\(\beta_0,\beta_1\)的无偏估计。
得到了一个实际问题的回归方程后,需要对回归方程进行检验。回归系数的显著性检验就是要检验自变量 \(x\) 对应变量 \(y\) 的影响程度是否显著。如果原假设成立,则因变量与自变量之间没有真正的线性关系,也就是说自变量的变化对因变量没有影响。
原假设:\(H_0:\beta_1=0\),如果在假设的拒绝域内,说明一元线性回归效果显著。
\(t\) 检验法:
给定显著性水平 \(\alpha\),拒绝域为 \(|t|\ge t_{\frac{\alpha}{2}(n-2)}\)。
\(F\) 检验法:
其中,\(SSE=\sum(y_i-\hat{y}_i)^2\)是残差平方和,\(SSR=\sum(\hat{y}_i-\bar{y})^2\)是回归平方和。
给定显著性水平 \(\alpha\),拒绝域为 \(F \ge F_{\alpha}(1,n-2)\)。
相关系数检验法:
给定显著性水平 \(\alpha\),拒绝域为 \(|r| \ge r_{\alpha}(n-2)\)。
多元线性回归
\(y=\beta_0+\beta_1x_1+...+\beta_px_p+\epsilon\)
模型的矩阵表示
参数的最小二乘估计
推导过程:
注意:向量积对列向量 \(x\) 求导运算法则:
重要结论:
单因素方差分析
问题背景:比较多个总体均值是否相等。
称要比较的总体为因素或因子(\(A,B,C\)),因子所处状态为水平(\(A_1,A_2,...\))。如果在试验中,只有一个因素取不同水平,其他因素保持不变,那么这种试验称为单因素试验。
要比较各总体均值是否一致,就是检验各总体均值是否相同,设第 \(i\) 个总体的均值为 \(\mu_i\) ,那么要检验的假设为:\(H_0:\mu_1=\mu_2=...=\mu_k\)。用于检验假设 \(H_0\) 的统计方法称为方差分析法,其实质是检验若干具有相同方差的正态总体的均值是否相等。若考察的因子只有一个,称为单因子方差分析。
当 \(H_0\) 为真,\(A\) 的 \(k\) 个水平均值相同,称因素 \(A\) 的各水平间无显著差异,认为因素 \(A\) 对试验结果影响不显著,可以把 \(X_{ij}\) 看作来自同一正态总体。
\(k: 因素A的水平个数\),\(n_i: 第i个水平拥有的状态个数\)
\(S_T:总偏差平方和, S_A: 组间平方和,S_E:组内平方和\)
贝叶斯统计
著名统计学家耐曼(Neyman 1894~1981)指出,统计问题中有三种重要信息,分别是:(1)总体信息。即总体分布。(2)样本信息。(3)先验信息。即在抽样之前有关统计推断的一些信息,是在试验之前就已有的信息。
贝叶斯统计学使用了这三种信息,由样本观测值与先验分布,利用贝叶斯公式得到后验分布,于是后验分布融合了样本与先验,形成信息量更丰富的后验信息。
贝叶斯公式的两种常见形式:(1)事件形式的贝叶斯公式(2)密度函数形式的贝叶斯公式。
事件形式的贝叶斯公式
设 \(A_1,...,A_n\) 是 \(S\) 的一个划分,对任何事件 \(B\),有:
\(P(A_i)\) 是先验,\(P(B|A_i)\) 是似然,需要根据题目看随机事件符合什么分布。
密度函数形式的贝叶斯公式
贝叶斯统计学的基本观点可以用下面三个观点归纳出来:
- 随机变量 \(X\) 有一个密度函数 \(p(x;\theta)\),其中 \(\theta\) 是一个参数,不同的 \(\theta\) 对应不同的密度函数,\(p(x;\theta)\) 在给定 \(\theta\) 后是一个条件密度函数,记为 \(p(x|\theta)\)。这个条件密度提供的有关 \(\theta\) 的信息就是总体信息。
- 给定 \(\theta\) 后,从总体 \(p(x;\theta)\) 中随机抽取样本 \(X_1,...,X_n\),样本中含有 \(\theta\) 的有关信息就是样本信息。似然值 \(\pi(x_1,...,x_n|\theta)\)
- 我们对参数 \(\theta\) 已经积累了很多资料,经过分析处理,可以获得一些有关 \(\theta\) 的有用信息,这种信息就是先验信息。先验分布 \(\pi(\theta)\)
我们关心的是样本给定后,\(\theta\) 的条件密度函数,即后验分布 \(\pi(\theta|x_1,...,x_n)\)
例1
设事件 \(A\) 的概率是 \(\theta\),即 \(P(A)=\theta\)。为了估计 \(\theta\) 作 \(n\) 次独立观察,其中事件 \(A\) 出现次数为 \(X\)。\(P(X=x|\theta)=C_{n}^x\theta^x(1-\theta)^{n-x}\)。
如果对 \(\theta\) 没有先验信息,贝叶斯建议用区间 \((0,1)\) 上的均匀分布作为先验分布,即:
因为不知道具体 \(\theta\) 大小,使用 Beta 分布表示先验信息,将先验信息转换为 Beta 分布的参数。[1]
目的是求解后验概率 \(P(\theta|data)\propto P(data|\theta)P(\theta)\)
其中,\(P(data|\theta)\) 是二项分布,\(P(\theta)\) 是 Beta 分布。得到:
设 \(a^{\prime}=a+x\),\(b^{\prime}=b+n-x\)
发现,后验分布服从Beta分布,即用B函数表示后验概率:
Beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。 ↩︎