https://boardmix.cn/app/share/CAE.CPCQwQwgASoQYfH6G5uMEQpJtTjgmX-1qTAFQAE/vvi2eu,

1. 正太分布检验

  拿到数据之后,先看数据是否满足正态分布

2. 统计分析

  描述性分析:

  1. 集中趋势的度量:这些度量描述了数据的中心点或典型值,包括均值(平均数)、中位数和众数。

    • 均值是所有观察值的总和除以观察值的数量。
    • 中位数是将数据集排序后位于中间位置的值。
    • 众数是数据集中出现频率最高的值。
  2. 离散程度的度量:这些度量描述了数据点围绕中心值的分布程度,包括方差、标准差和四分位距。

    • 方差度量了数据点与均值的平均偏差的平方。
    • 标准差是方差的平方根,提供了一个量化数据离散程度的度量,使其与原始数据在同一单位上。

3. 参数检验

  参数检验,依赖于一些关于总体分布的假设。最常见的假设是数据遵循正态分布,但也有针对其他分布的参数检验。

  参数检验利用了数据的实际数值,并基于分布的假设来推断总体参数(如均值、方差)。参数检验的有效性很大程度上依赖于这些假设的正确性。当样本量较大时,中心极限定理保证了样本均值的分布趋于正态分布,这也就是为什么参数检验通常适用于样本量较大的情况。

t检验

t检验基于t分布,它适用于样本量较小且总体标准差未知的情况。t检验的目的是确定两个样本均值之间的差异是否超出了随机抽样变异所能解释的范围,从而推断这种差异是否可能反映了总体均值的真实差异

  1. 单样本t检验(One-sample t-test):比较单个样本的均值与一个已知或假设的总体均值之间的差异。目的是判断总体均值是否与特定值有显著差异

  2. 独立样本t检验(Independent samples t-test):比较两个独立样本群体的均值。这两个群体必须是独立的。独立样本t检验评估两个群体的均值是否有显著差异,从而推断两个总体均值是否不同

  3. 配对样本t检验(Paired sample t-test):用于比较同一组个体在两个不同条件或时间点上的均值。这种检验通常用于前后测试,例如,评估一种治疗方法前后的效果变化。配对样本t检验关注的是差异分数(即每对观测值之差)的均值

 3.1单样本t检验案例

 

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

3.2独立样本t检验案例

 

 

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

3.3配对样本t检验案例

 

4. 非参数检验

  非参数检验不依赖于数据遵循任何特定的总体分布假设。这意味着,不管数据是否符合正态分布或其他特定类型的分布,非参数检验都可以被应用。

  这类检验通常是基于数据的排名或顺序进行的,而不是基于数据的实际数值。

  卡方检验

  定义:卡方检是比较观察值与期望值之间的差异的一种假设检验方法

  区别卡方分布:卡方检验与卡方分布之间的关系是通过卡方分布提供了一种方法来评估卡方检验中计算得到的卡方统计量的显著性【那个正态分布】

 

5.方差分析ANOVA

定义:用于两个及两个以上样本均数差别的显著性检验。两个样本(变量),每个变量是有多个组的

  组内:

  组间:

作用:方差分析可以帮助确定一个或多个自变量(因素)是否对一个因变量产生显著影响。通过分析组间的变异与组内的变异之间的比较,可以判断自变量是否对因变量有显著影响

和回归分析区别:

  • 方差分析通常用于三个及以上组件的差异。例如,不同教学方法对学生成绩的影响等。
  • 回归分析通常用于探究自变量(或预测变量)与因变量(或响应变量)之间的线性关系。它可以用于预测、建模以及了解自变量对因变量的影响程度。

分类:

  单因素方差分析:比较一个自变量对一个因变量的影响【不是连续的】

  多因素方差分析:比较多个自变量对一个因变量

  多元方差分析:一个自变量和多个因变量

单因素方差分析:

  条件:自变量是分类的【大于等于3个】

        因变量是连续的

6.相关分析

  定义:评估两个或多个变量【所有的,自变量+因变量】之间的相关性。它可以告诉我们,变量之间是否存在关系。为后续的回归分析做准备。它不区分自变量和因变量,也不探讨因果关系

  结果:相关性分析的结果是相关系数,它仅仅表明变量之间存在的关系的强度和方向,但不能说明变量之间的因果关系

  系数:相关系数的范围通常是-1到1

  • 相关系数为0:表示两个变量之间没有线性关系。
  • 相关系数大于0:表示两个变量之间存在正相关,即一个变量增加,另一个变量也增加。
  • 相关系数小于0:表示两个变量之间存在负相关,即一个变量增加,另一个变量减少

  主要的相关系数

  1. 皮尔逊相关系数 (Pearson's r):衡量两个变量之间的线性关系强度和方向。适用于两个变量均为连续且大致呈正态分布的情况。

  2. 斯皮尔曼等级相关系数 (Spearman's rho):用于评估两个变量的等级(或顺序变量)之间的相关性,适用于数据不满足正态分布、存在异常值或变量为等级(有序分类)数据时。

  3. 肯德尔等级相关系数 (Kendall's tau):也是一种用于度量变量之间等级相关性的方法,特别是当样本量较小或有许多 tied ranks(即排名相同的情况)时使用。

  

  前提:

    1.数据是连续的

      年龄、体重、血压、温度

    2.检验数据是否正太分布

      符合正态分布-->皮尔逊

      不符合--->斯皮尔曼

  疑问:

    1. 多变量进行相关性分析,是不是每个参数都是连续型的?

      皮尔逊是,斯皮尔曼不是

    2.多变量进行相关性分析,是不是都要单独判断每个变量是否符合正太分布?

      如果每个变量都是正态分布的,那么使用皮尔逊相关系数是合适的。但如果一个或多个变量不遵循正态分布,你可能需要使用非参数方法,如斯皮尔曼等

  

 

7.回归分析

  7.0 基础

  定义:

    两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

  分类:

  按照自变量:一元回归、多元回归

  按照因变量:多重回归

  按照二者之间关系:线性和非线性

  系数:

    R:相关系数、R的值介于-1和1之间。值接近1或-1表示强相关;接近0表示几乎没有线性相关

    :决定系数,值也介于0和1之间。值越接近1,表示模型解释的变异比例越大,拟合优度越好【0.5表示模型在描述观测数据上的效果很好,预测误差较小,一般大于0.5

    P值:它通常用于测试模型中的每个自变量的显著性。【小于0.05表示自变量对因变量有显著的影响,保留该变量

    F:整体检验回归模型的显著。【一个高F值(和相应的低p值)表明模型至少有一个自变量对因变量有显著影响

    

    未标准化系数:

      B:反映自变量每变化一个单位,因变量预期的平均变化量【系数*自变量】

      标准误差:量化B的估计精度,越小表明估计越精确

    标准化系数:Beta系数、表示的是变量在被转换为标准差单位后对因变量的影响【判断哪个自变量对因变量的影响更大,数值大的自变量影响更重要】

    VIF:来衡量多重共线性程度的一个指标【如果模型的自变量之间存在较强的线性关系,即共线性,那么这些变量可能不是独立的,这会影响模型的估计结果和解释】

      • VIF的值从1开始,1表示没有共线性。
      • VIF大于1表明预测变量之间存在共线性的程度随VIF的增加而增加。
      • 通常情况下,VIF值超过5或10则可能表示有严重的多重共线性问题,需要进一步分析或调整模

  前提

    • 数据 是连续性的
    • 因变量要符合正态分布
    • 回归分析前要做相关性分析,自变量和因变量有相关性才能做回归

  

  7.1线性

  定义:

    

  7.2非线性

  定义:

    在非线性回归模型中,至少有一个自变量与因变量的关系是非线性的。这种模型可以采用多种形式,如指数、对数、二次等,形式

    

   

  7.3二元Logistic 【二分类】

    

 

  7.4多元Logistic【多分类】

    

 

8.聚类分析

9.因子分析

  定义:

    用于研究变量之间的相关性,以识别一组变量背后可能存在的几个未观测的潜在变量(称为因子)

  其他概念:

  

  分析方法:

    主成分分析(PCA):PCA关注方差的最大化。主成分分析(Principal Component Analysis,PCA)是一种统计方法,它通过正交变换将一组可能相关的变量转换成一组线性不相关的变量,这些线性不相关的变量称为主成分。PCA的目标是在减少数据的维度的同时,尽可能地保留原始数据中的变异性或信息量

    探索性因子分析(EFA):EFA更侧重于发现数据中潜在的因子结构

10.信效度分析

   用来衡量问卷质量的,如果问卷的信度和效度比较好,证明问卷的数据可靠性比较高,问卷数据内部一致性比较高,所以可以用来做后续的建模分析

  信度分析:

    定义:用同样的方法对同一对象重复测量时所得结果的一致性程度。高信度意味着误差较小,测量结果较为稳定可靠

    指标:

      内部一致性信度:衡量测量工具内部各个项之间的一致性。

      常用的衡量指标是克隆巴赫的α系数(Cronbach's Alpha),α系数值范围从0到1,值越高表明内部一致性越好,通常认为α系数大于0.7表示良好的内部一致性。可信度是高的

    使用目的:

      证明数据是可靠的

    使用条件:

      问卷还有量表题,需要信效度检验

    测试方法:

    1.   重测信度:对同一个被测试者前后进行两次测试,然后比较两次测试结果的一致性来评估。如果两次测试结果高度一致,则认为测试具有高重测信度。

    2.   分半信度:将测验分成两部分,并比较这两部分的得分一致性。这种方法试图通过测量工具的一半来估算整个测量工具的一致性。

    3.   平行形式信度:同一个被测试者,一次填写两侧问卷,然后比较两个测试形式的得分一致性来评估。

   效度分析

    定义:

    使用目的:

       使用条件

    测试方法

posted on 2024-03-17 23:10  黑逍逍  阅读(6)  评论(0编辑  收藏  举报