统计学-数据科学的核心-I
统计学-数据科学的核心-I
吨 他是 24 部分统计系列的第 1 部分。在这个模块中,我们将学习统计学以及如何在数据科学研究领域中使用它。如果您是 DS 的完全初学者,那么本系列将是您数据科学职业生涯的起点。所以我们不要再等了。让我们深入了解这些概念。
统计数据
- 处理大量数值数据的收集、分析、解释和呈现的数学分支 .
- 统计数据本身就是 数值数据的整理和分析以得出具体的推论 .该学科在其他各种研究分支中都有应用,例如经济学。任何关于经济学和统计学的研究都涉及使用量化数据集验证理论。
- 我提到经济学的原因是,作为一名数据科学家,你最需要处理商业模型。因此,从经济学的角度学习统计学很重要。
- 简而言之,这是一门学习的艺术 ** 数据** .它与 ** 数据收集** , 他们的后续 辨别力 & 他们的 分析 ,这通常会导致 得出结论。 (别担心,我们要单独学习它们。)
主要统计部门:
- 描述性的 :与数据描述和汇总有关的统计部分。
- 它为我们提供了总结给定数据集的简要信息系数。 - 推论统计 :这部分统计涉及从数据中得出结论。
- 为了能够从数据中得出结论,我们必须考虑机会的可能性(概率论)。
_# 统计分析的目的
_ → 如果分析的目的是仅从自身的内在兴趣来检查和探索信息,则该研究是描述性的。
→ 如果信息是从人口样本中获得的,并且研究的目的是使用该信息得出关于人口的结论,则该研究是推论性的。
→ 当根据样本获得的信息对总体进行推断时,研究就变成了推断性的
我们将在我们的每周计划中涵盖所有这些内容。现在, ** _如何区分给定的案例研究是描述性的还是推理性的?
_** 把问题分成两部分
- 给出的输入是什么?
- 一旦你发现,检查给定的数据是否 人口或样本。
- 如果给定的数据是样本,检查它是否代表整个数据。 - 获得的输出类型是什么。
- 如果给定的数据是人口,那么它是描述性的。
- 如果给定的数据是样本
- 但如果它只给出总结,那么这项研究就是描述性的
- 如果它做出预测或得出结论,则该研究是推理性的。
理解数据
为了进行任何类型的统计研究,我们需要收集和解释数据。
数据: 收集、分析和总结的事实和数据以供展示和解释。
- 统计数据依赖于我们周围的数据和信息。
为什么我们需要收集数据?
- 对某些群体或一群人、地点、事物或事件的特征感兴趣。
我们在哪里收集数据?
- 数据收集分为 2 类。 **
**1. 可用数据 : 公布数据
2. 数据不可用 :需要收集或生成数据(我们将在推理统计中完全了解这一点。)。
目前,在描述性统计的范围内,我们假设数据是可用的,我们的目标是对可用数据进行统计分析。
即使数据可用,也总是很难解释它们。要了解我们为什么需要知道数据是如何收集的(暂时)。
通过调查收集数据。在这样做的时候,并不是所有的都是系统的。所以我们可以说,
收集到的数据分为两类:
1.结构化数据
2. 非结构化数据
为了使信息有用,我们必须始终了解给定数据和它所包含的文本的上下文。
- 当给出的数据分散而没有结构时,信息就没有什么用处了。
- 因此,我们需要在做任何事情之前组织数据。
**数据集
** - 结构化的数据集合。
- 它是值的集合 - 可以是数字、出生日期、任何有用的名称
变量和案例:
**多变的:
** → 直观地说:变量是“变化”
→ 形式上:在所有单位中变化的特征或属性。
**案例/观察:
** → 从中收集数据的单位。
笔记 : 当考虑表格形式时。
→ 行代表案例 (对于每种情况,记录相同的属性。)
→ 列代表变量 (对于每个变量,记录相同类型的值)
现在,记住我们谈到了人口和样本,让我们讨论一下。
人口和样本
- 人口 :我们感兴趣的所有元素的总集合。
→ 我们在使用总体时获得的数字称为 ** 参数** - 样本 :这是一个将被详细研究的人群亚组/亚组。
→ 应尽可能具有代表性。
→ 我们从数据样本中获得的数字称为统计数据。
# 样本数据的重要特征
→ 随机性: 当样本的每个成员都是从总体中严格随机选择时,就会收集随机样本。
→ 代表性 :准确反映整个人口的成员的人口子集
数据分类:
给定的数据(变量)可以分类如下
- 分类数据
- 它也被称为定性变量
- 用于识别组成员身份
- 不能对这些数据进行数学运算。 - 数值数据
- 也称为定量变量
- 描述案例的数值属性
- 有测量单位
- 它进一步分为2类
2.1)离散: 具有可数编号的数值变量。值 b/w 任意 2 个值
2.2) 连续: 具有无限编号的数值变量。值 b/w 任意 2 个值 - 横截面数据: 同时观察到的数据。
- 时间图: 显示值时间顺序的时间序列图。
- 时间序列 :随时间记录的数据。
测量尺度:
数据收集需要以下测量尺度之一。
1. 标称规模
2.序数
3. 间隔
4. 比率
- **标称测量尺度:
** 当变量的数据由用于识别观察特征的标签或名称组成时,测量尺度被视为名义尺度。
例如:姓名、董事会、性别、血型等,
→ 有时名义变量可能用数字编码。
→ 例如:我们可以分配 Male = 1 和 Female = 0,这不会改变给定数据是分类的事实。
您可以像这样简单地记住,Nominal = Name categories 而无需暗示顺序。 - 序数测量尺度:
** 数据表现出名义数据的属性,数据的顺序或等级是有意义的,测量的尺度被认为是序数尺度。
例如:服务评分(差、好、优)
→ 在这里,获得的数据被标记或数字编码(优秀、好或差)-因此我们可以说数据具有名义数据的属性
→ 此外,可以对数据进行排序或排序。
您可以像这样简单地记住,Ordinal = 可以排序的命名类别。
** 记住 :没有规则说在序数测量尺度中任意 2 个变量的距离与另一个变量相同。
IE。 在我们的最后一个例子中,我们有
好的,
坏的 &
出色的。
我们不能说 BAD、GOOD 和 EXCELLENT 之间的距离是相同的。
**以下是一些您可以尝试使用 Nominal 和 Ordinal 的问题:
** Q1。) 您对用于描述头发颜色(如金发、黑发、红色和黑色)的测量尺度有何看法?
Q2。) 电话号码的衡量标准是什么?
问题 3。) 快递服务有兴趣了解客户的反馈。客户可以选择以下选项。
不满意
有点不满意
中性的
使满意
非常满意
这里使用了什么测量尺度?
问题 4。) 已经进行了一项调查,以确定 12 岁以下的学生花在玩电子游戏上的时间(以分钟为单位)。学生可以选择以下选项。
小于 30
30–45
45–60
超过 60 个
这里使用了什么样的测量尺度?
-
测量间隔尺度:
如果数据具有序数数据的所有属性,并且区间 b/w 值以固定的度量单位表示,则度量尺度为区间尺度。
→ 区间数据始终为数字 :所以我们可以找出任何两个值之间的差异
→ 值的比率没有意义 : 那是因为零的值是任意的。
简单地说,区间:可以加/减的数值(没有绝对零)
例如:SAT分数、信用分数、摄氏温度 -
比例测量尺度:
如果数据具有区间数据的所有属性并且比率 b/w 2 值是有意义的,那么测量尺度是比率尺度
例如:身高、体重、年龄和分数
可以加、减、乘或除的数值(可以进行比率比较)
→ 存在完美的零
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明