SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据 的 认知: 概念 和 多元统计分析的认知+应用

Chapt 1 学习目标

  1. 理解多元数据及多元统计分析与一元统计分析的区别。
  2. 掌握数据的计量尺度与数据类型。
  3. 了解多元统计分析的应用分类。

1.1  多元数据认知

1.1.1 多元数据 的概念
任何一个现实问题要转化为一个统计问题
首要的工作是要对其特征进行刻画:

  • 一般采用随机变量.
  • 多个特征采用多个随机变量, 如 (X1,X2,  ,Xp) .
  • 随机变量一般是抽象的.
  • 随机变量描述的是有具体的意义的指标(特征)时,例如经济上常用的:
    宏观经济指标GDP、社会商品零售总额、固定资产投资额、消费、个人可支配收入等。
    此时统计问题的指标, 有其概念单位核算方法等:
    - 如果仅考虑单一特征(一个变量),则是一元统计问题,
    - 若要同时考虑多个特征,且要体现多个变量(指标)之间的关系,
    例如,个人消费 与其 可支配收入 正有关等,
    不但要分析每一个变量,还要分析它们之间的关联程度
    有必要对一元统计分析方法进行拓展

多元数据 统计分析 的构思

同时对诸多变量(X1,X2,  ,Xp) 进行分析
就是多元统计分析分析问题的构思

为对 多变量 进行 统计分析(描述性的或推断性的),我们需要:

  1. 通过大量的重复观察结果(数据)捕捉多变量及其之间的规律

  2. 有 p 个变量的多元统计问题, 可采用矩阵方法对其观察数据进行表示, 如X:
    [x11x12x1px21x22x2pxn1xn2xnp]
    xij:Oberservation of ith Individual and jth Variablen:Sample Sizep:Variable Size

  3. 分类变量:
    如果,.有几个不同的个体属于 s 个不同的群体,
    则, 设 s 是取值为1,2,,分类变量, 以区分这些群体。


1.2 多元统计分析

1.2.1  多元统计分析 认知

多元统计分析是分析多维数据的理论与方法,
随着现实问题的需要与数据收集、储存技术的发展,多元统计分析方法也不断地拓展与发展变化。
但是,如果想对 多元统计分析 给出一个 准确的定义, 一般非常困难,
我们很难建立一个既被广泛接受, 又能对其方法技术进行合适逻辑归类的分类框架。

鉴于此,本书从研究 现实问题 实际需要 的视角,
通过归类科学研究的目标, 以体现多元统计分析的方法与应用。
科学研究的目标或实际需要,特别是经济、管理、社会、教育、心理、医学等领域,
一般包括以下几个方面:

  •  data reduction or structural simplification
    数据减化或结构简化:
    以不损失有价值信息为前提,使用尽可能简单方式,
    对现象开展研究, 以期使解释更易。
  •  sorting and grouping
    分类和聚类:
    根据测量得数据及其特征,
    将"相似的"对象或变量分类, 或构建规则 以将 新对象 分于预先定义好的类。
  •  investigation of the dependence among variables
    调研变量之间的关系:
    研究者会对 变量之间的关系 感兴趣, 经常需要确定,
    是否所有的变量相互独立;还是一个或多个变量依赖于其他的一些变量,及其原因。
  •  prediction
    预测:
    基于某些变量的观测数据,确立变量之间的关系,
    以对感兴趣的一个或多个变量的值进行预测。
  •  hypothesis construction and testing
    假设的构建与检验:
    利用多元总体的参数构建统计假设,并对其进行检验,
    以对问题的假设或竞争性论点进行实证分析。

1.2.2 多元统计分析分类应用简例

为体现实际问题的分析需要和科学研究的目标,
下面通过问题举例, 呈现多元统计分析方法的应用,
学员可在此基础上举一反三,思考研究问题与多元统计分析方法的对应关系与选择。

  1. 数据简化或结构约化简例

    • 使用几个与患者放疗反应有关的变量数据,构建一个测度方法以测量患者的疗效。
    • 基于许多国家运动员的竞赛成绩数据,构建一个指数测量男女运动员的技术水平。
    • 利用高级扫描仪收集的多谱图像数据,在二维平面上呈现海岸线的图像。
  2. 分类和聚类简例

    • 基于若干人体生理变量的测量值,开发一种甄别方法,区别嗜酒者和非嗜酒者。
    • 税务部门使用从纳税申报表收集的数据,将纳税人分为 审计 和 不审计 两类。
    • 基于反映不同类型国家发展水平的若干变量数据,判断某国的发展方式应该:
      采取粗放型、集约型、粗放集约型、集约粗放型四种发展方式的哪一种。
  3. 变量之间关系简例

    • 基于几个变量的数据识别影响聘用外部顾问的企业成功的因素。
    • 对一些与公司环境和公司组织有关的变量进行测量,并基此解释为什么:
      有些公司的产品具有创新性,而有些公司的产品不具有创新性。
    • 基于公司高管的风险倾向与其社会经济特征之间的关系,
      评估高管的风险行为与其绩效之间的关系。
  4. 预测简例

    • 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
      预测学生大学期间的表现。
    • 基于若干个会计和财务变量识别财产保险者潜在的破产状况。
  5. 假设的构建与检验简例

    • 基于若干与污染有关的变量数据,以确定大城市的污染水平:
      在一周内大概相同,还是在工作日和周末之间存在明显的差异。
    • 基于一些与职业结构差异有关的变量数据,验证两种竞争的社会学观点的正确性。
    • 基于一些变量的数据,判断新兴工业化国家不同类型企业是否表现不同创新模式。


练习题

  1. 数据的计量尺度包括哪几种?如何进行区分?
  2. 多元统计分析应用主要包括哪些方面?
posted @   abaelhe  阅读(78)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示