统计学-数据科学的核心-I

统计学-数据科学的核心-I

吨 他是 24 部分统计系列的第 1 部分。在这个模块中,我们将学习统计学以及如何在数据科学研究领域中使用它。如果您是 DS 的完全初学者,那么本系列将是您数据科学职业生涯的起点。所以我们不要再等了。让我们深入了解这些概念。

统计数据

  • 处理大量数值数据的收集、分析、解释和呈现的数学分支 .
  • 统计数据本身就是 数值数据的整理和分析以得出具体的推论 .该学科在其他各种研究分支中都有应用,例如经济学。任何关于经济学和统计学的研究都涉及使用量化数据集验证理论。
  • 我提到经济学的原因是,作为一名数据科学家,你最需要处理商业模型。因此,从经济学的角度学习统计学很重要。
  • 简而言之,这是一门学习的艺术 ** 数据** .它与 ** 数据收集** , 他们的后续 辨别力 & 他们的 分析 ,这通常会导致 得出结论。 (别担心,我们要单独学习它们。)

主要统计部门:

  1. 描述性的 :与数据描述和汇总有关的统计部分。
    - 它为我们提供了总结给定数据集的简要信息系数。
  2. 推论统计 :这部分统计涉及从数据中得出结论。
    - 为了能够从数据中得出结论,我们必须考虑机会的可能性(概率论)。

_# 统计分析的目的
_
→ 如果分析的目的是仅从自身的内在兴趣来检查和探索信息,则该研究是描述性的。
→ 如果信息是从人口样本中获得的,并且研​​究的目的是使用该信息得出关于人口的结论,则该研究是推论性的。
→ 当根据样本获得的信息对总体进行推断时,研究就变成了推断性的

我们将在我们的每周计划中涵盖所有这些内容。现在, ** _如何区分给定的案例研究是描述性的还是推理性的?
_** 把问题分成两部分

  1. 给出的输入是什么?
    - 一旦你发现,检查给定的数据是否 人口或样本。
    - 如果给定的数据是样本,检查它是否代表整个数据。
  2. 获得的输出类型是什么。
  • 如果给定的数据是人口,那么它是描述性的。
  • 如果给定的数据是样本
    - 但如果它只给出总结,那么这项研究就是描述性的
    - 如果它做出预测或得出结论,则该研究是推理性的。

理解数据

为了进行任何类型的统计研究,我们需要收集和解释数据。
数据: 收集、分析和总结的事实和数据以供展示和解释。
- 统计数据依赖于我们周围的数据和信息。

为什么我们需要收集数据?
-
对某些群体或一群人、地点、事物或事件的特征感兴趣。

我们在哪里收集数据?
-
数据收集分为 2 类。 **
**1. 可用数据 : 公布数据
2. 数据不可用 :需要收集或生成数据(我们将在推理统计中完全了解这一点。)。

目前,在描述性统计的范围内,我们假设数据是可用的,我们的目标是对可用数据进行统计分析。
即使数据可用,也总是很难解释它们。要了解我们为什么需要知道数据是如何收集的(暂时)。
通过调查收集数据。在这样做的时候,并不是所有的都是系统的。所以我们可以说,
收集到的数据分为两类:
1.结构化数据
2. 非结构化数据

为了使信息有用,我们必须始终了解给定数据和它所包含的文本的上下文。

  • 当给出的数据分散而没有结构时,信息就没有什么用处了。
  • 因此,我们需要在做任何事情之前组织数据。

**数据集
** - 结构化的数据集合。
- 它是值的集合 - 可以是数字、出生日期、任何有用的名称

变量和案例:

**多变的:
** → 直观地说:变量是“变化”
→ 形式上:在所有单位中变化的特征或属性。

**案例/观察:
** → 从中收集数据的单位。

笔记 : 当考虑表格形式时。
行代表案例 (对于每种情况,记录相同的属性。)
列代表变量 (对于每个变量,记录相同类型的值)

现在,记住我们谈到了人口和样本,让我们讨论一下。

人口和样本

  1. 人口 :我们感兴趣的所有元素的总集合。
    → 我们在使用总体时获得的数字称为 ** 参数**
  2. 样本 :这是一个将被详细研究的人群亚组/亚组。
    → 应尽可能具有代表性。
    → 我们从数据样本中获得的数字称为统计数据。
    # 样本数据的重要特征
    → 随机性:
    当样本的每个成员都是从总体中严格随机选择时,就会收集随机样本。
    代表性 :准确反映整个人口的成员的人口子集

数据分类:

给定的数据(变量)可以分类如下

  1. 分类数据
    - 它也被称为定性变量
    - 用于识别组成员身份
    - 不能对这些数据进行数学运算。
  2. 数值数据
    - 也称为定量变量
    - 描述案例的数值属性
    - 有测量单位
    - 它进一步分为2类
    2.1)离散: 具有可数编号的数值变量。值 b/w 任意 2 个值
    2.2) 连续: 具有无限编号的数值变量。值 b/w 任意 2 个值
  3. 横截面数据: 同时观察到的数据。
  4. 时间图: 显示值时间顺序的时间序列图。
  5. 时间序列 :随时间记录的数据。

测量尺度:

数据收集需要以下测量尺度之一。
1. 标称规模
2.序数
3. 间隔
4. 比率

  1. **标称测量尺度:
    ** 当变量的数据由用于识别观察特征的标签或名称组成时,测量尺度被视为名义尺度。
    例如:姓名、董事会、性别、血型等,
    → 有时名义变量可能用数字编码。
    → 例如:我们可以分配 Male = 1 和 Female = 0,这不会改变给定数据是分类的事实。
    您可以像这样简单地记住,Nominal = Name categories 而无需暗示顺序。
  2. 序数测量尺度:
    ** 数据表现出名义数据的属性,数据的顺序或等级是有意义的,测量的尺度被认为是序数尺度。
    例如:服务评分(差、好、优)
    → 在这里,获得的数据被标记或数字编码(优秀、好或差)-因此我们可以说数据具有名义数据的属性
    → 此外,可以对数据进行排序或排序。
    您可以像这样简单地记住,Ordinal = 可以排序的命名类别。
    ** 记住
    :没有规则说在序数测量尺度中任意 2 个变量的距离与另一个变量相同。
    IE。 在我们的最后一个例子中,我们有
    好的,
    坏的 &
    出色的。
    我们不能说 BAD、GOOD 和 EXCELLENT 之间的距离是相同的。

**以下是一些您可以尝试使用 Nominal 和 Ordinal 的问题:
** Q1。) 您对用于描述头发颜色(如金发、黑发、红色和黑色)的测量尺度有何看法?

Q2。) 电话号码的衡量标准是什么?

问题 3。) 快递服务有兴趣了解客户的反馈。客户可以选择以下选项。
不满意
有点不满意
中性的
使满意
非常满意
这里使用了什么测量尺度?

问题 4。) 已经进行了一项调查,以确定 12 岁以下的学生花在玩电子游戏上的时间(以分钟为单位)。学生可以选择以下选项。
小于 30
30–45
45–60
超过 60 个
这里使用了什么样的测量尺度?

  1. 测量间隔尺度:
    如果数据具有序数数据的所有属性,并且区间 b/w 值以固定的度量单位表示,则度量尺度为区间尺度。
    区间数据始终为数字 :所以我们可以找出任何两个值之间的差异
    值的比率没有意义 : 那是因为零的值是任意的。
    简单地说,区间:可以加/减的数值(没有绝对零)
    例如:SAT分数、信用分数、摄氏温度

  2. 比例测量尺度:
    如果数据具有区间数据的所有属性并且比率 b/w 2 值是有意义的,那么测量尺度是比率尺度
    例如:身高、体重、年龄和分数
    可以加、减、乘或除的数值(可以进行比率比较)
    → 存在完美的零

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38506/35292113

posted @ 2022-09-21 13:36  哈哈哈来了啊啊啊  阅读(123)  评论(0编辑  收藏  举报