从一组相关变量中删除冗余或重复，把相关的变量放在一个因子中，实在不相关的因子有可能被删掉。用一组较小的“派生”变量表示相关变量，这个派生就是新的因子。形成彼此相对独立的因素，就是说新的因子彼此之间正交。

两种类型的“变量”：

1.潜在变量，即因素，就是降维后的因素。

2.观测变量，就是拿到的真实变量。

===========================================

因子分析的一些应用分析--（应用：筛选变量）

1.确定基本因素：

A.聚类变量为齐次集

B.创建新变量，就是创造出了因子

C.使我们能够洞察类别

2.变量筛选

A.标识分组，使我们能够选择一个变量来表示多个变量，就是一个因子来表示多个变量。

B.在回归中有用(回忆共线性)，在多元回归中我们删去有共线性的X变量。

3.总结：允许我们使用几个因素来描述许多变量。

4.物体的聚类：帮助我们根据他们的因素分数将对象（人员）放入类别中

===================

数据矩阵----（1.构建数据矩阵，该数据矩阵是相关矩阵，PCA之后变为因子矩阵）

因子分析完全依赖于变量之间的相关性，建立相关矩阵之后

因子分析总结了相关结构。

===================================

选择因素数

直观看，是将X的分量线性相关组成因子后，不相关因子的的数量。

只有当因素数小于X的变量数时才有用(回忆“数据约简”)。即要求因子矩阵为瘦长型表格。

使用“主成分”来帮助决定

因素的数量等于变量的数量

每个因素都是输入变量的加权组合，即score总和：

============================

特征值：

若要选择要使用的因素，请从主成分分析中考虑特征值。

两种解释：

系数等于变量数的特征值

特征值等于方差在数据中的描述因子。

须遵守的规则：

因子数>1

碎石图判断，断崖前一个比后一个表示的强太多。

解释方差比例，选择解释方差最多的前几个。

找好解释的因子

注：特征值之和等于项目数，即特征值数等于系数个数。

===================================

因子分析中的步骤

因素分析通常分四个步骤进行。

计算所有变量的相关矩阵，而PCA用的是特征矩阵
要素提取，仅在此处需要使用PCA
要素轮换
就基本因素的数量作出最后决定

==================================

相关分析

单元回归分析

多元回归分析

典范相关分析

冗余分析

====================================

数据集的总方差分为约束和无约束方差，是标准结果。此结果说明您的响应变量有多少变化与解释变量的变化是多余的。

如果约束方差比无约束方差高得多，分析表明，响应数据中的大部分变化可能是由您的解释变量来解释的。但是，如果有很大比例的无约束变化(即你的反应矩阵中的变化与解释矩阵中的变化无关)，则应谨慎解释结果，因为仅显示了响应矩阵中的少量变化。

关于若干约束轴(RDA轴)和无约束轴(PCA轴)的信息常常出现在RDA的结果中。

点间距离(观测值)观测值的近似距离(或标称解释变量的质心)

响应变量线和解释变量线之间的角度表示关联的二维近似。

其他线间的角度是没有意义的。

点在响应变量直线上的直角投影近似于对应对象沿对应变量的位置。

正方形/三角形不能与定性解释变量线相比较。

与CA一样，都是xy都做一遍PCA

NMDS是将数值大小转化为排序

典范对应分析CCA

CCA是一种多元约束排序技术，它提取数据集中解释变量组合中的主要梯度。

CCA是通过对应分析来实现的，其中使用加权多元回归将轴表示为解释变量的线性组合。

所以CCA是一个CA，其中轴是说明性变量的线性组合

CCA的要求是样本是随机的和独立的，并且自变量在样本位置内是一致的，并且没有误差。

CCA数据

给定：矩阵Y和X

y[j,i]是i位点的物种数i。

x[j,k]是站点j的自变量k。

目标：寻找物种丰富度和地点的关联

一个站点上的每个环境条件都是X的环境变量的线性组合。

假设：物种的生态位依赖于环境因素。

=========================================

计算步骤

1.从一个卡方物种矩阵[(实际预测)/sqrt(预测)]开始。

2.将环境变量期望的差异回归到拟合值,使用加权回归法，其中以按地块划分的总丰度作为权重。

3.利用特征分析计算拟合物种矩阵和投影的欧氏距离.然后通过它们与投影散点图的相关性来评估特定环境变量的重要性。

三角图

物种评分、地点评分和环境评分都是以一个名为Triplot(RDA中的三幅图)的图形来绘制的。这些三角图是CA的双图，附加的解释变量被绘制成行。

同样，物种的位置代表沿第一和第二轴的高斯响应模型(小生境)的最佳值。因此，物种分数表示为标签或点.

此外：物种可以垂直地(=正交地)投影在显示各自解释变量的物种最优的线上(在各自的标度中)。垂直于这些线的投影点会在这些站点上得到相应的环境变量的值。

线间的角度并不代表变量之间的相关性。相反，如果一条线的尖端被投影在另一条线或一个轴上，则得到的值表示加权相关性。

======================================================

何时使用PCA、CA、RDA或CCA

如果沿梯度的关系是线性的，则应使用PCA分析物种数据
RDA应用于分析物种和环境变量之间的线性关系。
CA分析物种数据X和沿梯度y的单峰关系。
CCA可用于分析物种X矩阵与环境变量Y矩阵之间的单峰关系。
如果β多样性较小，或者样本的范围仅覆盖梯度的一小部分，则应使用PCA或RDA。
长梯度具有高的β多样性，这表明应当使用CA或CCA。

纯排序|因果关系

===================================================

广义联合属性建模

posted on 2019-12-11 21:04 YUANya 阅读(428) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

导航