摘要:
抽样调查总结 1.简单随机抽样:从人群中随机选择一个人口单元,直到达到一组样本量“n”。 在每个选择过程中,其余的人口单位被选中的机会均等。一组样本以相同的概率发生。 正确性 系统差异 准确性 抽样误差 分层抽样 分层抽样的优点 1.确保每个阶层(亚群体)都有很好的权重。 2.如果抽样分配得当,可能 阅读全文
摘要:
非参数检验总结 假设分布和使用参数的统计测试称为参数测试,不假定分布或不使用参数的统计测试称为非参数测试。 非参数检验可适用于非正态分布的数据。 优势 适用于任何尺度,不要求总体数据满足正态分布。 容易计算 最初是在广泛使用计算机之前开发的 少作假设 不需要涉及总体参数 结果可能和参数程序一样精确。 阅读全文
摘要:
非参数统计 统计中的参数是什么? 大多数统计检验(如一般的线性模型)都假定某种基本分布,如正态分布。 如果你知道正态分布的平均值和标准偏差,那么你就知道如何计算概率。 均值和标准差称为参数,所有的理论分布都有参数。 假设分布和使用参数的统计测试称为参数测试。 不假定分布或不使用参数的统计测试称为非参 阅读全文
摘要:
最小二乘法来估计参数,就是使得实际值与估计值的差距的平方最小。 β可以被已知的未知数计算得到是无偏估计的值。但是用最小二乘法可以得到最好的线性无偏估计量,因为变异比较小。所以这种方法就是最稳定的最通用的方法。 如果只有一个β1,也就是只有y与x1,则使用两样本t检验和回归分析是一样的。因为两样本t检 阅读全文
摘要:
回归分析总结 回归的目的是用因(x)与果(y)之间的关系,最后达到用因来预测果的目的,相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。 x是没有误差的固定变量,或其误差可以忽略,而y是随机变量,且有随机误差。 前提: 在回归 阅读全文
摘要:
广义线性模型 GLM是一般线性模型的扩展,它处顺序和分类因变量。 所有的组件都是共有的三个组件: 随机分量 系统分量 链接函数 随机分量 随机分量跟随响应Y的概率分布 例1. (Y1,Y2,。....YN)可能是正态的。在这种情况下,我们会说随机分量是正态分布。该成分导致了普通回归和方差分析。 例2 阅读全文
摘要:
影响估计的两个值: 无偏,要透过好的实验设计 随机误差,统计中最看重的部分 如果是离散值,那么以二项分布为例,如果是连续值,那么以正态分布为例: 阅读全文
摘要:
因子分析和PCA 定义 因子分析就是数据降维工具。从一组相关变量中删除冗余或重复,把相关的变量放在一个因子中,实在不相关的因子有可能被删掉。用一组较小的“派生”变量表示相关变量,这个派生就是新的因子。形成彼此相对独立的因素,就是说新的因子彼此之间正交。 应用 筛选变量。 步骤 3.1计算所有变量的相 阅读全文
摘要:
有前提条件 样本量 各变量之间必须有相关性(被归纳在一个因子里强相关,因子间弱相关) 因子分析:对定量数据,不对定性数据 特征值大于1 自己设置几个因子 旋转后,就是调整能够解释的项的占比, 选择原则 1.贡献率0.5 2.大于1 3.可解释 纠缠不清:根据专业知识判断 张冠李戴:大部队与某一项关联 阅读全文
摘要:
排序 PCA主元件分析,主成分分析 FA因子分析 CA对应分析 主元件分析,主成分分析 主成分分析(PCA)是一种用于数据的压缩和分类的技术。其目的是通过查找新的变量集(样本)来降低数据集(样本)的维数,这些变量集比原始变量集小,但保留了大多数样本的信息。 我们所说的信息是指由原始变量之间的相关性给 阅读全文