随笔分类 -  STATISTICS

参考书籍《深入浅出统计学》
摘要:统计学中,一般将变量与变量之间的关系划分为函数关系和相关关系。 函数关系:因变量与自变量之间存在函数式关系。当一个变量或几个变量取一定的值时,另一个变量有确定值。例如,当给出圆的半径r时,就可以根据S=πr2,计算出圆面积S。 相关关系:因变量与自变量之间存在非严格的依存关系。当一个变量或几个变量取 阅读全文
posted @ 2020-05-17 13:55 傅余生 阅读(1295) 评论(0) 推荐(0)
摘要:一、卡方分布 1. 定义 设 X1..Xn是服从标准正态分布的随机变量,则称统计量 服从自由度为n的卡方分布(标准正态分布随机变量的平方和),记为,其中v称为自由度。 卡方分布期望和方差: 。 2. 外形(取决于自由度) 3. 统计量计算 , 为实际频数,为期望频数。 4. 分布的两个主要用途 分布 阅读全文
posted @ 2020-05-16 15:42 傅余生 阅读(7934) 评论(0) 推荐(0)
摘要:假设检验是先对总体参数进行提出某种假设的前提下,利用样本信息判断假设是否成立。 假设检验中基本概念 原假设和备择假设 原假设,用H0表示。原假设一般是统计者想要拒绝的假设。 备择假设,用H1表示。备则假设是统计者想要接受的假设。 为什么统计者想要拒绝的假设设置为原假设呢?这是由于若原假设被拒绝如果出 阅读全文
posted @ 2020-05-15 15:43 傅余生 阅读(2885) 评论(0) 推荐(0)
摘要:一、点估计量 点估计量是通过最具代表性的样本,对总体参数给出的最佳估计。点估计量是有价值的,但总会存在误差。 二、置信区间 让总体参数介于a和b之间,使得该区间包含总体参数的概率为p。即:P(a<参数<b) = p 我们用(a,b)表示这个区间,(a,b)称为置信区间,p称为置信水平。 那么如何求总 阅读全文
posted @ 2020-05-14 15:19 傅余生 阅读(2028) 评论(0) 推荐(0)
摘要:一、点估计量 在某些情况下,我们并不知道总体参数的确切数值,只能通过样本估计总体参数。 点估计量就是通过样本对于总体参数的最佳猜测值。 例如:总体均值 总体均值点估计量 二、估计总体均值(样本估计总体) 在已知情况下,样本均值是我们能为总体均值做出的最好估计-样本均值是最有可能被作为总体均值的数值。 阅读全文
posted @ 2020-05-09 21:41 傅余生 阅读(1542) 评论(0) 推荐(0)
摘要:一、概率密度函数 概率密度函数用于描述连续随机变量的概率分布,离散型分布中我们通常关注随机变量X取特定值时的概率,在连续型分布中关注X在某数值范围内对应概率。 连续随机变量的概率通过概率密度函数面积表示。对于任何概率分布来说,总概率必须等于1,因此面积必须等于1。 二、正态分布-连续数据的“理想”模 阅读全文
posted @ 2020-05-06 17:37 傅余生 阅读(5386) 评论(0) 推荐(0)
摘要:一、几何分布 X ~ Geo(p) 1. 定义 进行一系列相互独立的试验。 每次试验都有成功的可能,也有失败的可能,且每次试验成功概率相同。 问题在于第一次成功需要进行多少次试验。 2. 概率 随机变量X表示为取得第一次成功所需要的试验次数。 为求出X取特定数值r的概率,使用下式进行计算, 其中p为 阅读全文
posted @ 2020-05-03 22:32 傅余生 阅读(2075) 评论(0) 推荐(0)
摘要:1、期望-随机变量的平均值 每次试验中,一个离散型随机变量的期望值是试验中每一次可能出现的结果的概率乘以其结果的总和。 期望数学公式: X是一个离散型的随机变量,可能取值x1,x2...,对应概率p1,p2...。 说明:期望类似均值,但均值针对于数据集,期望描述的是随机变量的概率分布,概率分布描述 阅读全文
posted @ 2020-04-26 17:03 傅余生 阅读(4144) 评论(0) 推荐(0)
摘要:1. 事件 互斥事件-不可能同时发生的事件,其含义是:事件A与事件B在任何一次试验中不会同时发生。满足A∩B = Φ、P(A∩B) = 0,则P(A∪B) = P(A) + P(B)且P(A) + P(B) ≤ 1。 对立事件-事件A与事件B不能同时发生,且事件A与事件B在任何一次试验中“必有一个发 阅读全文
posted @ 2020-04-24 22:46 傅余生 阅读(3220) 评论(0) 推荐(0)
摘要:频度分析-用一定的分类方法将数组分类,统计各分组下样本数量,以图表辅助,用更直观的方式描述出数组的分布趋势。 业务意义:在实际数据分析工作中,经常需要将数据按照某个维度分段进行指标统计,以发现问题和解决问题。 例子:一个班40个学生,考试成绩如下: [73,87,88,65,73,76,80,95, 阅读全文
posted @ 2020-04-16 01:54 傅余生 阅读(2239) 评论(0) 推荐(0)
摘要:1.数组的集中趋势-如何定义数组的中心 1.1 常用几下几个指标来描述一个数组的集中趋势 均值-算术平均数 。 中位数-将数组升序或降序排列后,位于中间的数。 众数-数组中出现最多的数。 1.2 指标特点 优点 缺点 均值 充分利用所有数据,包含最多信息量,适用性强,应用最为广泛 极易受到异常值的影 阅读全文
posted @ 2020-04-15 17:08 傅余生 阅读(2939) 评论(0) 推荐(0)