Saikiran Dasari 为数据科学撰写的“统计”
Saikiran Dasari 为数据科学撰写的“统计”
连接统计数据(外行术语 1)
您可以通过整个 Stats 博客获得快速介绍和可交付成果:
大家好,我的名字是 Saikiran Dasari(有抱负的数据科学家和 AI 爱好者),也是一名计算机工程师。我知道你们中的许多人都在努力修改统计学的概念,你们已经完成了许多课程,需要为最后的准备做一次尝试。我精心设计了您从未遇到过的 Stats 的每个关键字的 aka 条款!和
注意:这个博客将专注于问题及其清晰的答案(外行人可以轻松理解!)
一路艰辛学习,仔细分析了所有课程和不同培训师对主题的解释,在我的DS旅程中设计了这个博客,我能为你做的至少是给你一个坚实的基础,你可以用来升级您的职业生涯,成为统计上最好的数据科学家,并成为未来最赚钱的职业道路的一部分!
我有分段统计信息!
第 1 部分:了解统计数据、数据和信息之间的差异、其数据类型、测量水平、人口和样本、数据源、 应符合特点的好问题 ** , 和很高兴知道的条款**
— — — — — — — — — — — — — — — — — — — — — — — — — — —
了解统计数据
什么是统计学?
RA Fisher 给出的统计定义被认为是最好和最准确的:它说:“统计是专门研究数据的应用数学的分支”
Overview of Stats!
收集: 基于启动调查/滚动谷歌表格/邮寄问卷/当地代理信息等
分类: 基于数据集,我们将准备变量的子集,例如 Location1、2、3 或经验级别到(0 到 1)(1-2)等。我们将变量分解到不同的桶中以创建标准的子集
总结: 数据总结和解释在 描述性统计。 汇总数据的一种简单方法是生成一个表示各种观察类型计数的表格。我们总结数据的一个原因是它为我们提供了一种概括的方法,即做出超出特定观察的一般性陈述。
分析:分析 数据以发现模式、关系和趋势。
口译: 它涉及获取数据分析的结果,对所研究的关系进行推断,或者为收集的“清理”原始数据赋予意义。
统计的局限性?
-> Stats 仅处理定量数据,甚至定性信息也通过排名、评分或缩放等方法转换为数值数据。与群众打交道,而不是个人。
-> 统计结果在一般意义上是正确的。它们总是会出现一定程度的错误。
-
统计数据仅用于得出关于群众或人口的结论,而不是对所有问题进行分类。
-
我们只从我们不得出结论的样本数据中推断
(上面使用的 Quantitative、Qualitative、Sample 和 Population 等术语将在下面详细回答)
笔记: 一个数据点可能看不到有价值。每个 DP 都放在一起,您将获得大量信息,您可以构建大量分析,我们通常将其称为分析或数据科学。
— — — — — — — — — — — — — — — — — — — — — — — — — — —
数据与信息的区别
Que)数据和信息有什么区别?
High-level differencing Data and Info!
— — — — — — — — — — — — — — — — — — — — — — — — — — —
“数据类型”和“测量级别”概述:
— — — — — — — — — — — — — — — — — — — — — — — — — — —
1. 数据类型:
统计学中有哪些数据类型?
注意:您的数据可以是观察的(定性的)或测量的(定量的),仅此而已!
主要有两种类型的数据:
1.分类(定性)/观察
- > [名义,序数]
Ordinal(因为它可以订购),Nominal(因为它只是一个名称)
2.数值(定量)/测量
- > [连续,离散]
此外,在 Continuous 中,我们有 [Interval scale, Ratio scale]
2. 测量水平:
Overview of Data Types Classification!
一个) 定量(数值)/测量?
关于由数字描述的事物的信息。
示例:收入、年龄、身高
和 数字 数据,我们可以计算统计数据 平均 在一个国家的收入,或 范围 足球队球员的身高。
Que) 连续数据和数据的区别 离散数据 ?
连续数据?
任何可以用十进制值表示的数据都可以称为连续数据类型。
例如:10.5、13.2 / 时间和金钱是连续的,长度、重量、身高等
离散数据?
任何只能采用整数的数据都可以称为离散数据类型(不采用任何十进制数据类型)。
你不能在骰子上得到 2.5,也不能有 3.49 的鞋码
例如:学生人数、患者人数、汽车人数等是离散数据的示例。
此外,在 'CONTINUOUS' 中,我们有 { Interval Scale and Ratio Scale }
间隔?
可排序的数据和可量化/测量的差异
没有绝对零
例如 :以华氏/摄氏度测量的温度,负值有意义,日历中的年份(温度可能为 0,但它们不是绝对有意义)
比率?
可以排序的数据,并且它们之间存在一致且有意义的距离。
它也有一个绝对零
负值基本上没有意义
例如 :金钱、年龄、时间、体重、身高、长度、升、新产品的销售额
我们有 0 销售/利润的有意义的零意味着没有销售/利润!等)所以,这是一个 比率
— — — — — — — — — — — — — — — — — — — — — — — — — — —
二) 定性(分类)/观察
可以分类为无法直接用数字描述的不同类别的有关事物的信息。
示例:品牌、国籍、职业
和 分类的 数据,我们可以计算 统计数据 喜欢 比例 .例如,印度人在世界上的比例,或者更喜欢一个品牌而不是另一个品牌的人的百分比。
名义上的?指名称/只是标签给某物
NOMINAL 级别表示是否没有对不能按任何顺序排列的分类数据/类别的排序
无法订购!
例如:季节(冬季、春季、夏季、秋季)、颜色、国家
序数?指的是订单但无法衡量!
ORDINAL 级别表示您是否偏好某件事而不是其他/可以订购的类别
可订购!
例如:评级、排名、Customer_Level_Satisfaction
— — — — — — — — — — — — — — — — — — — — — — — — — — —
人口和样本
总体和样本有什么区别?
总体是我们研究感兴趣的所有项目的集合,通常用大写 N 表示。我们在使用总体时获得的数字称为参数。
样本是总体的子集,用小写的 n 表示,我们在处理样本时获得的数字称为统计数据。
这或多或少是你应该说的!
为什么我们要从总体中抽取样本?
总体将包括与一个人的研究相关的每一个数据点/观察结果,但无法获得/不可能获得该观察结果,这就是我们抽取样本(总体的一部分)并尝试对其进行概括的原因关于人口。
注意:样本应具有 2 个属性:随机性和代表性
例如:
在您的办公室,假设我们有 4 个部门:IT、市场营销、人力资源和销售。每个部门有1000人,总共有4000人。
您想评估是否搬到新办公室,并且决定不想询问所有 4000 人,但 100 人就是一个很好的例子。
现在来自 4 个部门,我们预计每个部门的 100 人中有 25 人!
第一种情况:
我们在 Random 的 4000 人中挑选了 100 人,并意识到我们有 30 名 IT、30 名营销人员、30 名人力资源和 10 名销售人员(这里我们有一个随机但不具有代表性的样本)
第二种情况:
假设我已经在那个办公室工作了很长时间。你在每个部门都有很多朋友。所以,你从每个部门挑选 25 人。 (这里的样本是有代表性的,但不是随机的!因为您考虑的是特定的一群人,而不是整个公众!)
解决方案:
如果我们想成为 Random 和具有代表性的人,我们将在 Random 中从 IT 中挑选 25 人,然后在 Random 中挑选来自 Marketing、HR 和 Sales 的 25 人,而不是基于特定的人(如朋友)圈子,只针对一般的“公众” '。
— — — — — — — — — — — — — — — — — — — — — — — — — — —
数据源
列举 2 种统计数据并简要描述。
1)主要数据 :直接从单位/个人收集的绩效数据,这些数据以前从未用于任何目的(例如:调查、人口普查数据等)。
2)辅助数据: SD,已由某些个人或机构收集并进行统计测试以得出某些结论。再次使用和分析相同的数据以提取一些其他信息(例如:已发表的论文、研究论文、项目报告等)。
— — — — — — — — — — — — — — — — — — — — — — — — — — —
应符合特点的好问题:
一份好的问卷或时间表的特征?
- 许多问题应该能够提取报告所需的所有信息。
- 每个问题都应该有几乎所有的替代答案。
- 问题应该清楚且 没有 任何歧义(即歧义意味着包含超过 1 个导致混淆的含义)。
- 不应该非常冗长和耗时。
— — — — — — — — — — — — — — — — — — — — — — — — — — —
其他必知条款:
提到统计的主要部门?
- 数理统计
- 统计方法或函数
- 描述性统计
- 推理统计
- 应用统计
调查类型?
- 普查法调查
- 通过样本方法进行调查
可靠数据的必要条件?
它应该是完整的、一致的、准确的,并且应该是同质的(同质意味着相同的类型)wrt 一个信息单元。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明