多元统计分析:易混知识点、假设检验与计算器使用
本文对多元统计分析中一些难记的结论进行集中整理,错误难免,如有发现请在评论区中指出。
Part 1:易混结论
正态分布的条件分布 设\(X^{(1)}\sim N_r(\mu^{(1)},\Sigma_{11})\),\(X^{(2)}\sim N_{p-r}(\mu^{(2)},\Sigma_{22})\),\({\rm COV}(X^{(1)},X^{(2)})=\Sigma_{12}\),则
-
\(X^{(2)}\)与\(X^{(1)} - \Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\)相互独立,称\(\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\)为\(X^{(1)}\)在\(X^{(2)}\)方向上的投影。
-
给定\(X^{(2)}\)时,\(X^{(1)}\)的条件分布是
\[X^{(1)}|X^{(2)}\sim N_r(\mu_{1\cdot2},\Sigma_{11\cdot 2}),\\ \mu_{1\cdot 2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(X^{(2)}-\mu^{(2)}),\\ \Sigma_{11\cdot 2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}. \]
似然函数的最大取值 设数据矩阵为\(\boldsymbol X_{n\times p}\),正态分布\(N_p(\mu,\Sigma)\)的似然函数是
-
无论如何,\(\mu\)的极大似然估计点在\(\bar X\)。
-
如果没有给定\(\mu\)的真值,则\(\Sigma\)的极大似然估计点是
\[\frac{A}{n}. \]对多总体依然适用,即每一个\(\Sigma_i\)的极大似然估计点是
\[\frac{A_{i}}{n_i}. \]公共极大似然估计点是
\[\frac{A_1+\cdots+A_k}{n_1+\cdots+n_k}. \] -
检验\(H_0=\sigma^2\Sigma_0\)时,\(\Sigma\)的极大似然估计点是
\[\frac{1}{np}{\rm tr}(\Sigma_0^{-1}A)\cdot \Sigma_0 \]即\(\sigma^2\)的极大似然估计点是
\[\frac{1}{np}{\rm tr}(\Sigma_0^{-1}A). \] -
分块对角阵检验时,每一个对角块\(\Sigma_{ii}\)的极大似然估计点是
\[\frac{A_{ii}}{n}. \]注意这里与多总体\(\Sigma\)的估计不同。
-
如果参数空间与\(H_0\)空间的维度之差为\(f\),则似然比\(\lambda\)的极限分布是
\[-2\ln\lambda\to\chi^2(f). \]
正态估计量的分布 设数据矩阵为\(\boldsymbol X_{n,p}\),正态总体\(N_p(\mu,\Sigma)\)的相关估计量有如下性质(及常用公式):
- \(\bar X\sim N_p(\mu,\frac{\Sigma}{n})\),即\(\sqrt{n}(\bar X-\mu)\sim N_p(0,\Sigma)\)。
- \(A\sim W_p(n-1,\Sigma)\)。
- \([\sqrt{n}(\bar X-\mu)]'\Sigma^{-1}[\sqrt{n}(\bar X-\mu)]\sim \chi^2(p)\)。
- \((n-1)[\sqrt{n}(\bar X-\mu)]'A^{-1}[\sqrt{n}(\bar X-\mu)]\sim T^2(p,n-1)\)。
\(T^2\)分布与\(F\)分布的转化 如果\(T^2\sim T^2(p,n)\),则
联合协方差阵 如果两个总体\(G_1\)和\(G_2\)具有相同的协方差阵,则联合协方差阵为
这里\(A_1\)是\(G_1\)中抽取\(n_1\)个样本的离差阵,\(A_2\)是\(G_2\)中抽取\(n_2\)个样本的离差阵。此后,用\(S_{\text{pooled}}\)作为\(\Sigma\)的估计。
线性判别函数 如果两个类的协方差阵相等为\(\Sigma\)(或在视为相等时使用联合协方差阵\(S\)),\(G_1\)的均值为\(\mu^{(1)}\),\(G_2\)的均值为\(\mu^{(2)}\)(或者它们的估计\(\bar X^{(1)}\)和\(\bar X^{(2)}\)),则线性判别函数为
如果\(W(X)>0\),则判为\(G_1\);如果\(W(X)<0\),则判为\(G_2\)。
一元判别的阈值 如果两个一元总体为\(N(\mu_1,\sigma_1^2)\)和\(N(\mu_2,\sigma_2^2)\),则分离两类的阈值点是
如果\(x>x^*\),则将样本判为均值大的总体,否则判为均值小的总体。这个方法主要用于Fisher判别得到的一元总体,还要注意\(a'\Sigma a\)是方差(而不是标准差\(\sqrt{a'\Sigma a}\))。
二类贝叶斯判别的损失函数 设\(G_1:N_p(\mu_1,\Sigma_1)\)的先验概率是\(q_1\),\(G_2:N_p(\mu_2,\Sigma)\)的先验概率是\(q_2\),则将样本\(X\)判给两类的平均损失是
如果只有两类,适合计算他们的比值而不是差值。
广义平方距离 设\(d^2(X,G)\)是\(X\)到类\(G\)的马氏距离,\(\bar d^2(X,G)\)是类\(X\)到类\(G\)的广义平方距离,则
这里\(\Sigma_g\)表示类\(G\)的协方差阵,\(q_g\)表示类\(G\)的先验概率。广义平方距离是在损失函数相同情况下,贝叶斯判别一种特例。
各种各样的特征值 在费希尔判别、主成分分析、因子模型、典型相关分析中都要求某矩阵的特征值和特征向量作为某种因素。
-
费希尔判别中,求的是\(A^{-1}B\)的特征值\(\lambda\)和特征向量\(a\)。这里\(A\)是组内离差阵,\(B\)是组间离差阵,\(\lambda\)是判别效率,判别能力即\(\lambda\)占特征值之和的比例。\(a'X\)是判别函数,此时特征向量不用单位化。
-
费希尔判别中,如果没有给定样本,则取\(A\)为各\(\Sigma\)的加和,\(B\)为各\((\mu_i-\bar \mu)(\mu_i-\bar \mu)'\)的加和,计算\(A^{-1}B\)的特征值。
-
主成分分析中,求的是\(\Sigma\)的特征值\(\lambda_i\)和单位特征向量\(a_i\)。第\(i\)主成分指的是第\(i\)大的特征值\(\lambda_i\)对应的单位特征向量\(a_i'X=Z_i\)。如果\(\Sigma\)未知,一般使用样本相关阵\(R\)。
-
因子分析的主成分解中,求的是\(\Sigma\)的特征值\(\lambda_i\)和单位特征向量\(a_i\),选择\(m\)个特征值对应的特征向量\(a_i\)构成因子载荷矩阵:\((\sqrt{\lambda_i}a_i,\cdots,\sqrt{\lambda_m}a_m)\)。如果\(\Sigma\)未知,往往使用相关阵\(R\)计算。
-
典型相关分析中,求的是\(\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\)和\(\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\)的特征值\(\lambda\),典型相关系数为\(\sqrt{\lambda}\)。其中,\(\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\)的对应特征向量中满足\(a'\Sigma_{11}a=1\)的为所求的系数,\(\Sigma_{22}^{-1}\Sigma_{12}\Sigma_{11}^{-1}\Sigma_{12}\)的对应特征向量中满足\(b'\Sigma b=1\)的为所求的系数。
-
典型相关分析的另一种求解方式,求的是\(TT'\)的特征值\(\lambda\),典型相关系数是\(\sqrt{\lambda}\),这里,\(T=\Sigma_{11}^{-1/2}\Sigma_{12}\Sigma_{22}^{-1/2}\),对应的特征向量为\(l_i\),则
\[a_i=\Sigma_{11}^{-1/2}l,\quad b_i=\frac{1}{\sqrt{\lambda}}\Sigma_{22}^{-1}\Sigma_{21}a_i. \]
类平均法的递推 如果含\(n_p\)个样本的类\(G_p\),与含\(n_q\)个样本的类\(G_q\),合并成含\(n_r=n_p+n_q\)个样本的类\(G_r\),则\(G_r\)与其他类\(G_k\)的距离递推式为
注意,此处均为距离的平方。
主成分分析相关概念 矩阵\(A=(a_1,a_2,\cdots,a_p)\),有\(Z=A'X\),这里\(X\sim N_p(\mu,\Sigma)\),\(Z\)是\(p\)维列向量(主成分)。
-
总方差:\({\rm tr}(\Sigma)\),也即特征值之和,又叫总惯量。
-
因子负荷量:第\(k\)个主成分\(Z_k\)与总体第\(i\)个分量\(X_i\)之间的相关系数,即
\[\rho(Z_k,X_i)=\frac{{\rm Cov}(a_k'X,e_i'X)}{\sqrt{\mathbb{D}(Z_k)\mathbb{D}(X_i)}}=\frac{e_i'\Sigma a_k}{\sqrt{\lambda_k\sigma_{ii}}}=\frac{e_i'\lambda_ka_k}{\sqrt{\lambda_k\sigma_{ii}}}=\frac{\sqrt{\lambda_k}a_{ik}}{\sqrt{\sigma_{ii}}}. \] -
主成分对分量的贡献率:第\(k\)个主成分\(Z_k\)对第\(i\)个分量\(X_i\)的贡献率,定义为因子负荷量的平方,即
\[\rho^2(Z_k,X_i)=\frac{\lambda_k a_{ik}^2}{\sigma_{ii}}. \]前\(m\)个主成分对分量\(X_i\)的贡献率为
\[\nu^{(m)}=\sum_{i=1}^m\rho^2(X_i,Z_k)\le 1. \] -
主成分的贡献率:第\(k\)个主成分\(Z_k\)的贡献率是
\[\frac{\lambda_k}{\sum_{i=1}^p \lambda_i}. \]前\(m\)个主成分的贡献率是
\[\frac{\sum_{k=1}^m\lambda_k}{\sum_{i=1}^p \lambda_i}. \] -
主成分得分:第\(t\)个样品\(X^{(t)}=(x_{t1},\cdots,x_{tp})'\)的主成分得分为
\[Z_{(t)}=A'X^{(t)}=\begin{bmatrix} a_1'X^{(t)} \\ \vdots \\a_p'X^{(t)} \end{bmatrix}=\begin{bmatrix} z_{t1} \\ \vdots \\ z_{tp} \end{bmatrix}. \]主成分得分矩阵为
\[Z=\begin{bmatrix} Z_{(1)}' \\ \vdots \\ Z_{(n)}' \end{bmatrix}=\begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1p} \\ z_{21} & z_{22} & \cdots & z_{2p} \\ \vdots & \vdots & & \vdots \\ z_{n1} & z_{n2} & \cdots & z_{np} \end{bmatrix}. \]
因子模型相关概念 有以下分解:\(\Sigma =AA'+D\),\(A_{p\times m}\)为载荷矩阵,\(D={\rm diag}(\varepsilon_1^2,\cdots,\varepsilon_p^2)\)为对角阵。
-
因子载荷:\(a_{ij}={\rm Cov}(X_i,F_j)\),称为分量\(X_i\)在因子\(F_j\)上的载荷。
-
变量共同度:\(A\)中第\(i\)行元素的平方和称为分量\(X_i\)的共同度,即
\[h_i^2=\sum_{j=1}^m a_{ij}^2. \]有\(h_i^2+\varepsilon_i^2=\mathbb{D}(X_i)\)。
-
公因子贡献:\(A\)中第\(j\)列元素的平方和称为公因子\(F_j\)的贡献,即
\[q_j^2=\sum_{i=1}^p a_{ij}^2. \]\(q_j^2\)越大代表公因子贡献越大。
因子得分 因子得分的计算方式有两种:加权最小二乘法(巴特莱特),回归法(汤普森)。
-
加权最小二乘法:因子得分为
\[\hat F=(A'D^{-1}A)^{-1}(A'D^{-1})X. \] -
最小二乘法:适用于主成分法求解的因子模型,因子得分为
\[\hat F=(A'A)^{-1}A'X. \] -
回归法:因子得分为
\[\hat F=A'(AA'+D)^{-1}X. \]
典型相关分析相关概念 \(\mathbb{D}(X)=\Sigma_{11}\),\(\mathbb{D}(Y)=\Sigma_{22}\),\({\rm COV}(X,Y)=\Sigma_{12}\),且典型相关变量为\(V_k=a_k'X\)与\(W_k=b_k'Y\)。
-
典型相关系数:\(\rho(a_k'X,b_k'Y)=\sqrt{\lambda_k}\)。
-
典型结构:原始变量与典型变量之间的相关系数阵,具体记\(A_{p\times p}=(a_1,\cdots,a_p)\),\(B_{q\times p}=(b_1,\cdots,b_p)\),则\(V=A'X\),\(W=B'Y\),典型结构包括
\[{\rm COV}(X,V)=\Sigma_{11}A,\\ {\rm COV}(X,W)=\Sigma_{12}B,\\ {\rm COV}(Y,V)=\Sigma_{21}A,\\ {\rm COV}(Y,W)=\Sigma_{22}B. \] -
典型相关得分:样品\(Z_{(t)}=(X_{(t)}',Y_{(t)}')'\)的数值代入第\(i\)对典型变量中,得到\((v_{ti},w_{ti})\)称为第\(t\)个样品\(Z_{(t)}\)对第\(i\)对样本典型变量的得分值。
典型冗余分析相关概念 由样本数据阵计算得到样本相关阵\(R\),进而计算得到典型变量列\(V=A'X\),\(W=B'X\)。记\(r(X_j,V_k)\)是\(R_{11} A\)的第\(j\)行、\(k\)列元素,其他元素类似定义。
-
第\(k\)个变量解释本组变量总变差的百分比:记
\[R_d(X;V_k)=\frac{1}{p}\sum_{j=1}^pr^2(X_j,V_k),\\ R_d(Y;W_k)=\frac{1}{q}\sum_{j=1}^q r^2(Y_j,W_k) \]为第\(k\)个典型变量\(V_k\)或\(W_k\)解释本组变量\(X\)或\(Y\)的总变差的百分比。
-
前\(m\)个变量解释本组变量总变差的百分比:
\[R_{d}(X;V_1,\cdots,V_m)=\frac{1}{p}\sum_{k=1}^m\sum_{j=1}^pr^2(X_j,V_k),\\ R_d(Y;W_1,\cdots,W_m)=\frac{1}{q}\sum_{k=1}^m\sum_{j=1}^qr^2(Y_j,W_k). \] -
第\(k\)个解释变量解释另一组变量变差的百分比:
\[R_d(X;W_k)=\frac{1}{p}\sum_{j=1}^pr^2(X_j,W_k)=\rho^2_kR_d(X;V_k),\\ R_d(Y;V_k)=\frac{1}{q}\sum_{j=1}^qr^2(Y_j,V_k)=\rho^2_kR_d(Y;W_k). \] -
冗余测度:称第一组典型变量的冗余测度为\(R_d(X;W_k)\),第二组典型变量的冗余测度为\(R_d(Y;V_k)\)。
全相关系数 全相关系数用于刻画一个随机变量与一组随机变量之间的相关关系。记\(Y\)与\(X=(X_1,\cdots,X_p)'\)的全相关系数为
Part 2:假设检验
关于均值
注意以下式子都是在\(H_0\)成立时的假定,从而如果p值过小,就拒绝原假设。
协方差阵已知,单总体均值检验 \(H_0:\mu=\mu_0\),此时\(\Sigma\)已知。
协方差阵未知,单总体均值检验 \(H_0:\mu=\mu_0\),此时\(\Sigma\)未知。
协方差阵未知但相等,双总体均值检验 \(H_0:\mu_1=\mu_2\)。
协方差阵未知但相等,多总体均值检验 \(H_0:\mu_1=\mu_2=\cdots=\mu_k\)。
关于协方差
协方差检验主要使用似然比检验,故先给出似然函数。
均值未知,单位阵的检验 \(H_0:\Sigma=I_p\)。
均值未知,正定阵的检验 \(H_0:\Sigma=\Sigma_0\)。
给定倍数的检验 \(H_0:\Sigma=\sigma^2\Sigma_0\)。
代回得到
多总体协方差阵检验 \(H_0:\Sigma_1=\Sigma_2=\cdots=\Sigma_k\)。似然比只包含指数外面的行列式部分。
于是
独立性检验 \(H_0:\Sigma_{12}=O\)。假设两个分量的维度是\(r\)与\(p-r\)。
于是
Part 3:计算器使用
卡西欧991可以进行单变量统计。
单变量输入 设置
→6
→1
。如输入一组数据如下:
单数据统计 输入完数据后,OPTN
→3
,能得到以下数据:
栏 | 数据 | 释义 |
---|---|---|
\(\bar x\) | 218.5 | 平均值 |
\(\sum x\) | 2185 | 求和 |
\(\sum x^2\) | 487625 | 求平方和 |
\(\sigma^2x\) | 1020.25 | 求有偏估计的样本方差 |
\(\sigma x\) | 31.94135251 | 求有偏估计的样本标准差 |
\(s^2x\) | 1133.611111 | 求无偏估计的样本方差 |
\(sx\) | 33.66914182 | 求无偏估计的样本标准差 |
\(n\) | 10 | 计数 |
\(\min(x)\) | 170 | 最小值 |
\(Q_1\) | 200 | 第一分位数(大于25%) |
\(Med\) | 202.5 | 中位数 |
\(Q_3\) | 250 | 第三分位数(大于75%) |
\(\max(x)\) | 270 | 最大值 |
双变量输入 设置
→6
→2
。如输入两组数据如下:
双变量统计 OPTN
→3
,能得出以下数据:
栏 | 数据 | 释义 |
---|---|---|
\(\bar x\) | 120 | \(X\)的平均数 |
\(\sum x\) | 600 | \(X\)的求和 |
\(\sum x^2\) | 73000 | \(X\)的平方和 |
\(\sigma^2x\) | 200 | \(X\)的有偏估计方差 |
\(\sigma x\) | 14.14213562 | \(X\)的有偏估计标准差 |
\(s^2x\) | 250 | \(X\)的无偏估计方差 |
\(sx\) | 15.8113883 | \(X\)的无偏估计标准差 |
\(n\) | 5 | 计数 |
\(\sum xy\) | 1790 | \(XY\)的求和 |
\(\sum x^3\) | 9000000 | \(X^3\)的求和 |
\(\sum x^2y\) | 217700 | \(X^2Y\)的求和 |
\(\sum x^4\) | 1123540000 | \(X^4\)的求和 |
正态分布 OPTN
→↓
→4
进入正态分布页面,具有以下选项
栏 | 实例与输出 | 释义 |
---|---|---|
\(P(\) | \(P(2)=0.97725\) | 返回\(\Phi(x)\)的值 |
\(Q(\) | \(Q(2)=0.47725\) | 返回\(\mathrm{abs}(\Phi(x)-0.5)\)的值 |
\(R(\) | \(R(2)=0.02275\) | 返回\(1-\Phi(x)\)的值 |
\(\to t\) | 已有单变量数据为:3,2,4,3。\(3\to t=0\) | 在已有数据时,返回标准化后的值 |
矩阵输入 设置
→4
,进入矩阵页面,选择一个矩阵,先输入行号列号,再输入元素。如果要更换其他矩阵,可以用OPTN
键输入另一个矩阵。
矩阵运算 如果已经输入了两个矩阵如A、B,则可以在OPTN
面板中选择进行乘法。如果要使用结果,则使用OPTN
→↓
→1
;此外,还能对矩阵求逆、求行列式。