【学习笔记】统计分析

统计分析

一元线性回归

\(y=\beta_0+\beta_1x+\epsilon\)

参数估计方法——最小二乘

\[\hat{\beta}_1=\frac{l_{xy}}{l_{xx}}\\ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \]

其中,\(l_{xx}=\sum(x_i-\bar{x})^2,l_{xy}=\sum(x_i-\bar{x})(y_i-\bar{y})\),协方差。

对于一元线性回归样本模型:

\(\hat{\beta}_0,\hat{\beta}_1\)\(\beta_0,\beta_1\)的无偏估计;\(\hat{\sigma}^2\)\(\sigma^2\) 的无偏估计。

\[\hat{\sigma}^2 = \frac{SSE}{n-2} \]

其中,\(SSE=\sum(y_i-\hat{y}_i)^2\)是残差平方和。

\[var(\hat{\beta}_1)=\frac{\sigma^2}{l_{xx}}\\ var(\hat{\beta}_0)=\frac{\sum_{i=1}^{n}x_i^2}{nl_{xx}}\sigma^2 \]

\[cov(\bar{y},\hat{\beta}_1)=0\\ cov(\hat{\beta}_0,\hat{\beta}_1)=-\frac{\bar{x}}{l_{xx}}\sigma^2 \]

方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。协方差衡量两个变量之间的相关性程度。

对于一元正态线性回归的样本模型:

$$ y_i \sim N(\beta_0+\beta_1x_i, \sigma^2) $$

\[\hat{\beta}_1\sim N(\beta_1,\frac{\sigma^2}{l_{xx}}) \\ \hat{\beta}_0 \sim N(\beta_0, \frac{\sum_{i=1}^nx_i^2}{nl_{xx}}\sigma^2)\\ \]

\[\hat{y} \sim N(\beta_0+\beta_1x,[\frac{1}{n}+\frac{(x-\bar{x})^2}{l_{xx}}]\sigma^2) \]

\(\hat{\beta}_0,\hat{\beta}_1\)\(\beta_0,\beta_1\)的无偏估计。

得到了一个实际问题的回归方程后,需要对回归方程进行检验。回归系数的显著性检验就是要检验自变量 \(x\) 对应变量 \(y\) 的影响程度是否显著。如果原假设成立,则因变量与自变量之间没有真正的线性关系,也就是说自变量的变化对因变量没有影响。

原假设:\(H_0:\beta_1=0\),如果在假设的拒绝域内,说明一元线性回归效果显著。

\(t\) 检验法:

\[t=\frac{\hat{\beta}_1\sqrt{l_{xx}}}{\hat{\sigma}} \]

给定显著性水平 \(\alpha\),拒绝域为 \(|t|\ge t_{\frac{\alpha}{2}(n-2)}\)

\(F\) 检验法:

\[F=\frac{SSR}{SSE/(n-2)} \]

其中,\(SSE=\sum(y_i-\hat{y}_i)^2\)是残差平方和,\(SSR=\sum(\hat{y}_i-\bar{y})^2\)是回归平方和。

给定显著性水平 \(\alpha\),拒绝域为 \(F \ge F_{\alpha}(1,n-2)\)

相关系数检验法:

\[r=\hat{\beta}_1\sqrt{\frac{l_{xx}}{l_{yy}}} \]

给定显著性水平 \(\alpha\),拒绝域为 \(|r| \ge r_{\alpha}(n-2)\)

多元线性回归

\(y=\beta_0+\beta_1x_1+...+\beta_px_p+\epsilon\)

模型的矩阵表示

参数的最小二乘估计

推导过程:

注意:向量积对列向量 \(x\) 求导运算法则:

\[\frac{d(u^Tv)}{dx}=\frac{d(u^T)}{dx}\cdot v+\frac{d(v^T)}{dx}\cdot u \]

重要结论:

\[\frac{d(x^Tx)}{dx}=\frac{d(x^T)}{dx}\cdot x+\frac{d(x^T)}{dx}\cdot x=2x \]

单因素方差分析

问题背景:比较多个总体均值是否相等。

称要比较的总体为因素或因子(\(A,B,C\)),因子所处状态为水平(\(A_1,A_2,...\))。如果在试验中,只有一个因素取不同水平,其他因素保持不变,那么这种试验称为单因素试验。

要比较各总体均值是否一致,就是检验各总体均值是否相同,设第 \(i\) 个总体的均值为 \(\mu_i\) ,那么要检验的假设为:\(H_0:\mu_1=\mu_2=...=\mu_k\)。用于检验假设 \(H_0\) 的统计方法称为方差分析法,其实质是检验若干具有相同方差的正态总体的均值是否相等。若考察的因子只有一个,称为单因子方差分析。

\(H_0\) 为真,\(A\)\(k\) 个水平均值相同,称因素 \(A\) 的各水平间无显著差异,认为因素 \(A\) 对试验结果影响不显著,可以把 \(X_{ij}\) 看作来自同一正态总体。

\(k: 因素A的水平个数\)\(n_i: 第i个水平拥有的状态个数\)

\(S_T:总偏差平方和, S_A: 组间平方和,S_E:组内平方和\)

贝叶斯统计

著名统计学家耐曼(Neyman 1894~1981)指出,统计问题中有三种重要信息,分别是:(1)总体信息。即总体分布。(2)样本信息。(3)先验信息。即在抽样之前有关统计推断的一些信息,是在试验之前就已有的信息。

贝叶斯统计学使用了这三种信息,由样本观测值与先验分布,利用贝叶斯公式得到后验分布,于是后验分布融合了样本与先验,形成信息量更丰富的后验信息。

贝叶斯公式的两种常见形式:(1)事件形式的贝叶斯公式(2)密度函数形式的贝叶斯公式。

事件形式的贝叶斯公式

\(A_1,...,A_n\)\(S\) 的一个划分,对任何事件 \(B\),有:

\[P(A_j|B)=\frac{P(A_i)P(B|A_i)}{\sum_{i=1}^nP(A_i)P(B|A_i)} \]

\(P(A_i)\) 是先验,\(P(B|A_i)\) 是似然,需要根据题目看随机事件符合什么分布。

密度函数形式的贝叶斯公式

贝叶斯统计学的基本观点可以用下面三个观点归纳出来:

  1. 随机变量 \(X\) 有一个密度函数 \(p(x;\theta)\),其中 \(\theta\) 是一个参数,不同的 \(\theta\) 对应不同的密度函数,\(p(x;\theta)\) 在给定 \(\theta\) 后是一个条件密度函数,记为 \(p(x|\theta)\)。这个条件密度提供的有关 \(\theta\) 的信息就是总体信息。
  2. 给定 \(\theta\) 后,从总体 \(p(x;\theta)\) 中随机抽取样本 \(X_1,...,X_n\),样本中含有 \(\theta\) 的有关信息就是样本信息。似然值 \(\pi(x_1,...,x_n|\theta)\)
  3. 我们对参数 \(\theta\) 已经积累了很多资料,经过分析处理,可以获得一些有关 \(\theta\) 的有用信息,这种信息就是先验信息。先验分布 \(\pi(\theta)\)

我们关心的是样本给定后,\(\theta\) 的条件密度函数,即后验分布 \(\pi(\theta|x_1,...,x_n)\)

\[\pi(\theta|x_1,...,x_n)=\frac{p(x_1,...,x_n,\theta)}{p(x_1,...,x_n)}=\frac{p(x_1,...,x_n|\theta)\pi(\theta)}{\int p(x_1,...,x_n|\theta)\pi(\theta)d\theta} \]

例1

设事件 \(A\) 的概率是 \(\theta\),即 \(P(A)=\theta\)。为了估计 \(\theta\)\(n\) 次独立观察,其中事件 \(A\) 出现次数为 \(X\)\(P(X=x|\theta)=C_{n}^x\theta^x(1-\theta)^{n-x}\)

如果对 \(\theta\) 没有先验信息,贝叶斯建议用区间 \((0,1)\) 上的均匀分布作为先验分布,即:

\[\pi(\theta)= \left\{ \begin{array}{**lr**} 1,0<\theta<1\\ 0,others \end{array} \right. \]

因为不知道具体 \(\theta\) 大小,使用 Beta 分布表示先验信息,将先验信息转换为 Beta 分布的参数。[1]

\[\operatorname{Beta}(a, b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)} \propto \theta^{a-1}(1-\theta)^{b-1} \]

目的是求解后验概率 \(P(\theta|data)\propto P(data|\theta)P(\theta)\)

其中,\(P(data|\theta)\) 是二项分布,\(P(\theta)\) 是 Beta 分布。得到:

\[P(\theta|data)\propto \theta^x(1-\theta)^{n-x}\cdot \theta^{a-1}(1-\theta)^{b-1}\\ \propto \theta^{a+x-1}(1-\theta)^{b+n-x-1} \]

\(a^{\prime}=a+x\)\(b^{\prime}=b+n-x\)

发现,后验分布服从Beta分布,即用B函数表示后验概率:

\[P(\theta|data)=\frac{\theta^{a^{\prime}-1}(1-\theta)^{b^{\prime}-1}}{B(a^{\prime},b^{\prime})} \]


  1. Beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。 ↩︎

posted @ 2020-09-07 16:44  ColleenHL  阅读(460)  评论(0编辑  收藏  举报