摘要:
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/直线来拟合这些数 阅读全文
摘要:
推断统计是利用样本数据来推断总体特征的统计方法,旨在解决无法对总体每一个个体进行测量或分析的问题。在实际应用中,很多时候我们无法对整个总体进行全面测量。例如,要了解一个地区的人口特征,不可能对每个人进行测量;在产品质量检测中,破坏性检验也不允许对每个产品进行检测。这种情况下,我们会抽取部分个体即样本 阅读全文
摘要:
描述性统计指标是一组用于总结和解释数据特征的基本工具,广泛应用于各类数据分析中,主要包括集中趋势、离散趋势和分布情况三个方面的指标。通过这些指标,描述性统计为我们提供了对数据整体结构、波动性和形态的全面理解,奠定了深入分析和推断的基础。 一、描述性统计指标 描述性分析就是用少数几个数值(比如平均值、 阅读全文
摘要:
统计学作为一门学科,源于人类对信息的记录与分析需求,随着时间的推移,统计学不断演变,成为现代科学、经济和社会发展的重要工具。在统计学的发展过程中,图表学派的崛起是一个重要的阶段,图表作为数据表达的方式,极大地提升了数据的可视化能力和理解效果。通过图表,复杂的数据得以以更加直观的方式呈现,使得人们能够 阅读全文
摘要:
中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都 阅读全文
摘要:
在人们的生活中,很多场景都需要用到随机数,例如福利彩票,车牌摇号,公共用房分配等。在用数学模型, 包括概率统计模型处理实际应用中的问题时, 我们希望建立的模型能够尽可能地符合实际情况。但是,实际情况是错综复杂的,如果一味地要求模型与实际完全相符,会导致模型过于复杂,以至于不能进行严格理论分析。所以实 阅读全文
摘要:
数据可视化就是将我们从数据中探索的信息与图形要素对应起来的过程。数据可视化,先要理解数据,再去掌握可视化的方法,这样才能实现高效的数据可视化。数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度 阅读全文
摘要:
正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布,例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身 阅读全文
摘要:
正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是 阅读全文
摘要:
plyr包是Hadley Wickham大神为解决split – apply – combine问题而写的一个包,其动机在与提供超越for循环和内置的apply函数族的一个一揽子解决方案。使用plyr包可以针对不同的数据类型,在一个函数内同时完成split – apply – combine三个步骤 阅读全文