1. 相关分析
1.1 相关系数
在一堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务。由于线性关系的特殊、常见和简单,数学上往往采用线性关系来逼近实际关系。上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计。如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜方差的相关概念。
两个变量之间的线性关系,就是之前学过的协方差的概念。在得到个样本后,容易得到式(1)的无偏估计,注意其中降低了一个自由度,继而还可以有式(2)的样本相关系数。相关系数是线性关系的直接度量,它可以作为相关假设的检验条件,最常用的就是当时认为是不相关的。
为了能找到关于的枢轴变量,这里还是要做一些假设,即是一个二元正态分布。回顾二元正态分布的知识(《初等概率论》第5篇公式(27)),可知完全符合一元线性回归的模型。为此这里暂且取定,而把看成随机变量,并对它们进行一元回归分析。比较发现系数估计满足,在假设(即系数)的情况下,把这个等式代入上篇公式(12)右的枢轴变量,整理后得到式(3)。由于该结论与的取值无关,因此它对于变量也成立,它就是我们要找的枢轴变量。
1.2 复相关系数
相关系数度量了两个随机变量之间的线性关系,当系统中的变量很多时,关系也会变得复杂,这时需要引入更多的关系分析。以下记要讨论的个变量为,的相关系数为,并记矩阵,而去除行列后的子矩阵记作。在得到样本后,同样可以计算样本相关系数,并记矩阵和子矩阵。
首先比较容易想到的关系,是一个变量与多个变量的整体关系。回顾概率论中的线性回归,假设对的线性回归是,则容易证明与都不相关。仿照线性空间中的最小二乘法,可以看成是在空间中“投影”,故用和的关系作为与的关系是比较合理的,这个关系被称为与的复相关系数(式(4)左)。
式(4)右的证明比较繁杂,这里先从一些引论开始。考察随机变量和随机向量,为简化讨论,设它们已经中心化。设关于的回归函数是,则由最小二乘法可以得到式(5)。求解方程组便得到的解为,其中分别为方程组的系数矩阵和常数列向量。
然后可以计算得,这时再计算复相关系数,并把协方差换算成相关系数,可得式(6)左。其中是与的相关系数组成的列向量,而是之间的相关系数组成的矩阵。设的伴随矩阵为,而记为的相关系数矩阵,则不难发现,按第行、第列展开后其实是。这样就有了式(6)右成立,同样也有式(4)右成立。
在得到样本后,利用来估计,带入式(4)后算得的估计值称为样本复相关系数。当是维正态分布时,为检验假设,可以证明有式(7)的枢轴变量。
1.3 偏相关系数
有时候两个变量的相关性并不是因为它们有直接联系,而是因为它们共同与相关。所以有必要将的相关性从中去除后再计算的相关性,步骤也是比较自然的,先计算出对的线性回归,然后计算的相关系数。这样的关系被称为对偏相关系数(式(8)左)。
上面引理证明过程中的结论,同样可以证明式(8)右,请自行补齐证明过程。另外同样地,可以利用估计式(8)得到样本偏相关系数。当是维正态分布时,为检验假设,可以证明有式(9)的枢轴变量。
2. 方差分析
2.1 单因素完全实验
前面的讨论都集中在线性关系上,更一般地还需要讨论一般的关系模型。确定具体的是一个很开放的问题,前面的线性模型算一种,数学中还有很多逼近理论也可以派上用场。这里不深入讨论本身,而是只解决最简单的假设检验问题,即对是否有显著影响。
以下假设有个采样值,任务是检验是否受影响较大。由于还受到随机因素的影响,在同一个下一定要有多个的采样值,才能对有个较好的估计。设有个采样值,并记,模型可以写成式(10)。把模型中心化会更便于处理,故令,其中。
你可能注意到,的具体值在这里并不重要,不同的只是对的一个分组,要检验的假设其实是分布并不受分组影响。以下记的平均值是,而记的平均值是。想要搞清楚是否受分组影响,首先当然要看的分散程度。然后因为随机值会影响的精确性,评估时还要对比的分散程度。
具体来说,分散程度一般用平方和来度量,这样的统计量一般称为离差平方和。最简单的就是所有样本的总离差平方和(式(11)左),其次是每个的组内离差平方和(式(11)右)。直观上可以认为总离差平方和分为两个部分,一部分是的组间离差平方和,另一部分就是组内离差平方和。因此把定义为式(12)也是合理的,计算整理后得到的表达式更是有直观的意义。
然后很容易算到它们的期望值式(13),从中不难发现,仍然会含有误差方差的信息,因此必须结合误差信息来度量的影响。为度量影响大小,将假设定为,假设成立时称对影响显著,否则是影响不显著。当假设成立时,三个离差平方和中都只剩下项,预感枢轴变量是它们之间相除得到的统计量。
为寻找枢轴变量,首先假定是正态分布,然后将式(10)右带入式(11)(12),由于,得到的结果其实就是把换成。考察这些关于的正定二次型,不难得到的秩分别为,由柯赫伦分解定理可知,分别是自由度为的卡方分布,且它们互相独立。
它们正好可以用来生成型枢轴变量(式(14)),另外由于假设不成立时,有,故检验条件选择。需要强调,检验的结果只是相对随机值影响大小的一个度量,如果直观上看的差别十分明显,则说明误差的影响特别大,需要增加实验次数或先提取主要因素。如果假设不成立,还可以继续对做区间估计,请自行讨论其枢轴变量。
2.2 两因素完全实验
当有多个影响因素,并且各因素互相独立时,如果针对每个因素进行方差分析,往往需要较多的样本数。这时可以将多个因素合并进一个模型,以两个因素为例,建立式(15)左的模型。假设有个采样点,有个采样点,则总共只需要做次试验(式(15)右)。以下记为所有的平均值,为的平均值,为的平均值。
很快你会发现,想要对进行估值,信息量是不够的。上面的几个平均值的期望值如式(16),其中并不能得到具体的。但方差分析其实只关注数据的分散性,因此只要有的相对关系即可。为此,记,然后把中心化,这样就有了式(17)中更有用的结论。
的方差和与的方差和是一样的,类似式(12)可以到式(18)中方差和的估计。然后按照相同的理念,把式(19)作为误差方差和的估计(不用追究其直观意义)。容易知道的自由度分别是,则的自由度是。接下来可以得到两个类似式(14)的枢轴变量。
二元方差分析的模型其实可以直接用在单元素的区组设计上,即假定检验的目标是,在每个情况下进行次试验。这次试验原本可以随机安排,但如果个试验环境存在可知的差异,在设计试验时就要使得每种情况尽量出现在不同的环境中。以最理想的场景为例,试验环境正好可以分为种,而每种内部的个小环境是相同的,这时环境因素就可以看做是因素。
区组设计的目的是为了排除随机环境对试验的影响,当环境差距明显时,直接用两因素模型可以得到更准确的检验。但要注意,如果环境差异并不明显,组内离差平方和会被低估,再加上自由度的损失,平均离差平方和更是被严重低估。因此如果检测出环境影响甚微,应当直接采用单因素的方差分析。
【全篇完】
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架