博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

统计学——直方图解析

Posted on 2019-06-10 10:58  小猪课堂  阅读(7166)  评论(0编辑  收藏  举报
直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
 
直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。 为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。
 
直方图也可以被归一化以显示“相对”频率。 然后,它显示了属于几个类别中的每个案例的比例,其高度等于1。

 

步骤:
  (1)收集数据。作直方图的数据一般应大于50个。
  (2)确定数据的极差(R)。用数据的最大值减去最小值 求得。
  (3)确定组距(h)。先确定直方图的组数,然后以此组数去除极差,可得直方图每组的宽度,即组距。组数的确定要适当。组数太少,会引起较大计算误差;组数太多,会影响数据分组规律的明显性,且计算工作量加大。
  (4)确定各组的界限值。为避免出现数据值与组界限值重合而造成频数据计算困难,组的界限值单位应取最小测量单位的1/2。分组时应把数据表中最大值和最小值包括在内。
  第一组下限值为:最小值-0.5;
  第一组上限值为:第一组下限值加组距;
  第二组下限值就是第一组的上限值;
  第二组上限值就是第二组的下限值加组距;
  第三组以后,依此类推定出各组的组界。
  (5)编制频数分布表。把多个组上下界限值分别填入频数分布表内,并把数据表中的各个数据列入相应的组,统计各组频数据(f )。
  (6)按数据值比例画出横坐标。
  (7)按频数值比例画纵坐标。以观测值数目或百分数表示。
  (8)画直方图。按纵坐标画出每个长方形的高度,它代表取落在此长方形中的数据数。(注意:每个长方形的宽度都是相等的。)在直方图上应标注出公差范围(T)、样本容量(n)、样本平均值(x)、样本标准偏差值(s)和x的位置等。