统计学-数据科学的核心-I

吨他是 24 部分统计系列的第 1 部分。在这个模块中，我们将学习统计学以及如何在数据科学研究领域中使用它。如果您是 DS 的完全初学者，那么本系列将是您数据科学职业生涯的起点。所以我们不要再等了。让我们深入了解这些概念。

统计数据

处理大量数值数据的收集、分析、解释和呈现的数学分支 .
统计数据本身就是 数值数据的整理和分析以得出具体的推论 .该学科在其他各种研究分支中都有应用，例如经济学。任何关于经济学和统计学的研究都涉及使用量化数据集验证理论。
我提到经济学的原因是，作为一名数据科学家，你最需要处理商业模型。因此，从经济学的角度学习统计学很重要。
简而言之，这是一门学习的艺术 ** 数据** .它与 ** 数据收集** , 他们的后续 辨别力 ＆他们的分析，这通常会导致 得出结论。 （别担心，我们要单独学习它们。）

主要统计部门：

描述性的 ：与数据描述和汇总有关的统计部分。
- 它为我们提供了总结给定数据集的简要信息系数。
推论统计 ：这部分统计涉及从数据中得出结论。
- 为了能够从数据中得出结论，我们必须考虑机会的可能性（概率论）。

_# 统计分析的目的
_ → 如果分析的目的是仅从自身的内在兴趣来检查和探索信息，则该研究是描述性的。
→ 如果信息是从人口样本中获得的，并且研究的目的是使用该信息得出关于人口的结论，则该研究是推论性的。
→ 当根据样本获得的信息对总体进行推断时，研究就变成了推断性的

我们将在我们的每周计划中涵盖所有这些内容。现在， ** _如何区分给定的案例研究是描述性的还是推理性的？
_** 把问题分成两部分

给出的输入是什么？
- 一旦你发现，检查给定的数据是否 人口或样本。
- 如果给定的数据是样本，检查它是否代表整个数据。
获得的输出类型是什么。

如果给定的数据是人口，那么它是描述性的。
如果给定的数据是样本
- 但如果它只给出总结，那么这项研究就是描述性的
- 如果它做出预测或得出结论，则该研究是推理性的。

理解数据

为了进行任何类型的统计研究，我们需要收集和解释数据。
数据： 收集、分析和总结的事实和数据以供展示和解释。
- 统计数据依赖于我们周围的数据和信息。

为什么我们需要收集数据？
- 对某些群体或一群人、地点、事物或事件的特征感兴趣。

我们在哪里收集数据？
- 数据收集分为 2 类。 **
**1. 可用数据 : 公布数据
2. 数据不可用 ：需要收集或生成数据（我们将在推理统计中完全了解这一点。）。

目前，在描述性统计的范围内，我们假设数据是可用的，我们的目标是对可用数据进行统计分析。
即使数据可用，也总是很难解释它们。要了解我们为什么需要知道数据是如何收集的（暂时）。
通过调查收集数据。在这样做的时候，并不是所有的都是系统的。所以我们可以说，
收集到的数据分为两类：
1.结构化数据
2. 非结构化数据
为了使信息有用，我们必须始终了解给定数据和它所包含的文本的上下文。

当给出的数据分散而没有结构时，信息就没有什么用处了。
因此，我们需要在做任何事情之前组织数据。

**数据集
** - 结构化的数据集合。
- 它是值的集合 - 可以是数字、出生日期、任何有用的名称

变量和案例：

**多变的：
** → 直观地说：变量是“变化”
→ 形式上：在所有单位中变化的特征或属性。

**案例/观察：
** → 从中收集数据的单位。

笔记 : 当考虑表格形式时。
→ 行代表案例 （对于每种情况，记录相同的属性。）
→ 列代表变量 （对于每个变量，记录相同类型的值）

现在，记住我们谈到了人口和样本，让我们讨论一下。

人口和样本

人口：我们感兴趣的所有元素的总集合。
→ 我们在使用总体时获得的数字称为 ** 参数**
样本：这是一个将被详细研究的人群亚组/亚组。
→ 应尽可能具有代表性。
→ 我们从数据样本中获得的数字称为统计数据。
# 样本数据的重要特征
→ 随机性：当样本的每个成员都是从总体中严格随机选择时，就会收集随机样本。
→ 代表性 ：准确反映整个人口的成员的人口子集

数据分类：

给定的数据（变量）可以分类如下

分类数据
- 它也被称为定性变量
- 用于识别组成员身份
- 不能对这些数据进行数学运算。
数值数据
- 也称为定量变量
- 描述案例的数值属性
- 有测量单位
- 它进一步分为2类
2.1）离散： 具有可数编号的数值变量。值 b/w 任意 2 个值
2.2) 连续： 具有无限编号的数值变量。值 b/w 任意 2 个值
横截面数据： 同时观察到的数据。
时间图： 显示值时间顺序的时间序列图。
时间序列 ：随时间记录的数据。

测量尺度：

数据收集需要以下测量尺度之一。
1. 标称规模
2.序数
3. 间隔
4. 比率

**标称测量尺度：
** 当变量的数据由用于识别观察特征的标签或名称组成时，测量尺度被视为名义尺度。
例如：姓名、董事会、性别、血型等，
→ 有时名义变量可能用数字编码。
→ 例如：我们可以分配 Male = 1 和 Female = 0，这不会改变给定数据是分类的事实。
您可以像这样简单地记住，Nominal = Name categories 而无需暗示顺序。
序数测量尺度：
** 数据表现出名义数据的属性，数据的顺序或等级是有意义的，测量的尺度被认为是序数尺度。
例如：服务评分（差、好、优）
→ 在这里，获得的数据被标记或数字编码（优秀、好或差）-因此我们可以说数据具有名义数据的属性
→ 此外，可以对数据进行排序或排序。
您可以像这样简单地记住，Ordinal = 可以排序的命名类别。
** 记住：没有规则说在序数测量尺度中任意 2 个变量的距离与另一个变量相同。
IE。 在我们的最后一个例子中，我们有
好的，
坏的＆
出色的。
我们不能说 BAD、GOOD 和 EXCELLENT 之间的距离是相同的。

**以下是一些您可以尝试使用 Nominal 和 Ordinal 的问题：
** Q1。） 您对用于描述头发颜色（如金发、黑发、红色和黑色）的测量尺度有何看法？

Q2。） 电话号码的衡量标准是什么？

问题 3。） 快递服务有兴趣了解客户的反馈。客户可以选择以下选项。
不满意
有点不满意
中性的
使满意
非常满意
这里使用了什么测量尺度？

问题 4。） 已经进行了一项调查，以确定 12 岁以下的学生花在玩电子游戏上的时间（以分钟为单位）。学生可以选择以下选项。
小于 30
30–45
45–60
超过 60 个
这里使用了什么样的测量尺度？

测量间隔尺度：
如果数据具有序数数据的所有属性，并且区间 b/w 值以固定的度量单位表示，则度量尺度为区间尺度。
→ 区间数据始终为数字 ：所以我们可以找出任何两个值之间的差异
→ 值的比率没有意义 : 那是因为零的值是任意的。
简单地说，区间：可以加/减的数值（没有绝对零）
例如：SAT分数、信用分数、摄氏温度
比例测量尺度：
如果数据具有区间数据的所有属性并且比率 b/w 2 值是有意义的，那么测量尺度是比率尺度
例如：身高、体重、年龄和分数
可以加、减、乘或除的数值（可以进行比率比较）
→ 存在完美的零

本文链接：https://www.qanswer.top/38506/35292113

posted @ 2022-09-21 13:36 哈哈哈来了啊啊啊阅读(164) 评论(0) 收藏举报

刷新页面返回顶部

amboke

统计学-数据科学的核心-I

统计学-数据科学的核心-I

统计数据

主要统计部门：

理解数据

人口和样本

数据分类：

测量尺度：

公告