SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据 的 认知: 概念 和 多元统计分析的认知+应用
Chapt 1 学习目标
- 理解多元数据及多元统计分析与一元统计分析的区别。
- 掌握数据的计量尺度与数据类型。
- 了解多元统计分析的应用分类。
1.1 多元数据认知
1.1.1 多元数据 的概念
对任何一个现实问题要转化为一个统计问题,
首要的工作是要对其特征进行刻画:
- 一般采用随机变量.
- 多个特征采用多个随机变量, 如
. - 随机变量一般是抽象的.
- 当随机变量描述的是有具体的意义的指标(特征)时,例如经济上常用的:
宏观经济指标GDP、社会商品零售总额、固定资产投资额、消费、个人可支配收入等。
此时统计问题的指标, 有其概念、单位、核算方法等:
- 如果仅考虑单一特征(一个变量),则是一元统计问题,
- 若要同时考虑多个特征,且要体现多个变量(指标)之间的关系,
例如,个人消费 与其 可支配收入 正有关等,
则不但要分析每一个变量,还要分析它们之间的关联程度;
有必要对一元统计分析方法进行拓展
多元数据 统计分析 的构思
同时对诸多变量
就是多元统计分析分析问题的构思。
为对 多变量 进行 统计分析(描述性的或推断性的),我们需要:
-
通过大量的重复观察结果(数据)捕捉多变量及其之间的规律。
-
对有 p 个变量的多元统计问题, 可采用矩阵方法对其观察数据进行表示, 如
:
-
分类变量:
如果,.有几个不同的个体属于 s 个不同的群体,
则, 设 s 是取值为 的分类变量, 以区分这些群体。
1.2 多元统计分析
1.2.1 多元统计分析 认知
多元统计分析是分析多维数据的理论与方法,
随着现实问题的需要与数据收集、储存技术的发展,多元统计分析方法也不断地拓展与发展变化。
但是,如果想对 多元统计分析 给出一个 准确的定义, 一般非常困难,
我们很难建立一个既被广泛接受, 又能对其方法技术进行合适逻辑归类的分类框架。
鉴于此,本书从研究 现实问题 实际需要 的视角,
通过归类科学研究的目标, 以体现多元统计分析的方法与应用。
科学研究的目标或实际需要,特别是经济、管理、社会、教育、心理、医学等领域,
一般包括以下几个方面:
数据减化或结构简化:
以不损失有价值信息为前提,使用尽可能简单方式,
对现象开展研究, 以期使解释更易。
分类和聚类:
根据测量得数据及其特征,
将"相似的"对象或变量分类, 或构建规则 以将 新对象 分于预先定义好的类。
调研变量之间的关系:
研究者会对 变量之间的关系 感兴趣, 经常需要确定,
是否所有的变量相互独立;还是一个或多个变量依赖于其他的一些变量,及其原因。
预测:
基于某些变量的观测数据,确立变量之间的关系,
以对感兴趣的一个或多个变量的值进行预测。
假设的构建与检验:
利用多元总体的参数构建统计假设,并对其进行检验,
以对问题的假设或竞争性论点进行实证分析。
1.2.2 多元统计分析分类应用简例
为体现实际问题的分析需要和科学研究的目标,
下面通过问题举例, 呈现多元统计分析方法的应用,
学员可在此基础上举一反三,思考研究问题与多元统计分析方法的对应关系与选择。
-
数据简化或结构约化简例
- 使用几个与患者放疗反应有关的变量数据,构建一个测度方法以测量患者的疗效。
- 基于许多国家运动员的竞赛成绩数据,构建一个指数测量男女运动员的技术水平。
- 利用高级扫描仪收集的多谱图像数据,在二维平面上呈现海岸线的图像。
-
分类和聚类简例
- 基于若干人体生理变量的测量值,开发一种甄别方法,区别嗜酒者和非嗜酒者。
- 税务部门使用从纳税申报表收集的数据,将纳税人分为 审计 和 不审计 两类。
- 基于反映不同类型国家发展水平的若干变量数据,判断某国的发展方式应该:
采取粗放型、集约型、粗放集约型、集约粗放型四种发展方式的哪一种。
-
变量之间关系简例
- 基于几个变量的数据识别影响聘用外部顾问的企业成功的因素。
- 对一些与公司环境和公司组织有关的变量进行测量,并基此解释为什么:
有些公司的产品具有创新性,而有些公司的产品不具有创新性。 - 基于公司高管的风险倾向与其社会经济特征之间的关系,
评估高管的风险行为与其绩效之间的关系。
-
预测简例
- 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
预测学生大学期间的表现。 - 基于若干个会计和财务变量识别财产保险者潜在的破产状况。
- 利用学生的测试分数与体现其高中、大学表现的若干个变量之间的联系,
-
假设的构建与检验简例
- 基于若干与污染有关的变量数据,以确定大城市的污染水平:
在一周内大概相同,还是在工作日和周末之间存在明显的差异。 - 基于一些与职业结构差异有关的变量数据,验证两种竞争的社会学观点的正确性。
- 基于一些变量的数据,判断新兴工业化国家不同类型企业是否表现不同创新模式。
- 基于若干与污染有关的变量数据,以确定大城市的污染水平:
练习题
- 数据的计量尺度包括哪几种?如何进行区分?
- 多元统计分析应用主要包括哪些方面?
分类:
Mathematics / Analysis
, Mathematics / Algebra
, Mathematics
, Mathematics / Probability and Statistics
« 上一篇: SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据的: $\large \bm{Measure+Scale+Type(Nominal/Ordinal/Interval/Ratio)}$
» 下一篇: SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_统计分析: SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_统计数据分析: PROBABILITY DISTRIBUTIONS(常用概率分布)
» 下一篇: SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_统计分析: SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_统计数据分析: PROBABILITY DISTRIBUTIONS(常用概率分布)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律