1 数据 & 图表
瞎逼逼:虽然是统计专业,但学艺不精。大学受过的专业训练很少,妥妥学渣。因此工作后决定重新复习,阅读材料为贾俊平的《统计学》第7版。每周更新。
我不按照书里的逻辑顺序和所有知识点来写我的笔记,我写那些与我的工作比较有关的东西(想想之后觉得可以应用到工作中的数据的那些知识点),还会写写我觉得可以怎样应用到工作中,有些不太对的地方请大家多多指教~
第一周的内容是第3章:数据的图表展示。
1 数据审核:检查数据是否有错误。(完整性和准确性(异常值))
2 比例与比率的区别
比例是各部分的数据与全部数据之比;
比率是不同类别数据之间的比值。
3 数据分组
单变量值分组:把每一个值分成一组。适合离散变量,且变量值较少时
组距分组:适合连续变量或变量值较多的情况。
3.1 关于组距分组
步骤:
①确定组数。5-15组。
②确定各组的组距(各组的上限与下限之差)。组距=(最大值-最小值)/组数。
③根据分组编制频数分布表(组+频数+频率)。
分组原则:不重不漏。
①对于连续变量:
1.上组限不在内,a≤X<b.
2.对上一个组的上限值采用小数点的形式。eg.10~11.99,12~13.99
②对于离散变量:相邻两组的组限间断。eg.140~149,150~159
如果全部数据的最大值和最小值与其他数据相差很大,可以使用开口组。
第一组:“xx以下”,最后一组:“XX以上”
不等距分组:比如对于年龄的分组。
实际工作应用:对商品的价格分段分组分析。毛利率、售罄率等
4 向上累积和向下累积
适用于顺序数据,比如:不满意、一般、满意。
可以做累积分布图。
上面简单说说数据,下面 进入图表内容:
5 总述数据类型与主要图示方法
5.1 品质数据(以下均属汇总表)
条形图、饼图、环形图
5.2 数值型数据
原始数据:茎叶图、箱线图
分组数据:直方图
时间序列数据:线图
多变量数据:散点图(二维)、气泡图(三维)、雷达图(多维)
5.3 关于 直方图
①左右两边的尾巴哪一边偏长,这说明左(右)偏。
②与条形图和柱状图的区别?
首先,横着放的柱状图叫条形图~
然后条形图和直方图的区别:
1. 条形图是用长度表示频数;直方图是用面积表示各组频数(因为还有不等距分组哦,所以是用面积~高度表示每一组的频数,宽度表示每一组的组距);
2.由于分组数据具有连续性,因此直方图的各条柱子是靠一起的,而柱形图是分开的;
3.条形图主要是展示分类数据,直方图展示数值型数据。
5.4 未分组数值型数据的适用图形
茎叶图 :展示数据的原始分布
箱线图:可以展示数据的离散程度(通过箱线图的形状可以看出数据分布的特征),更常用法是用于比较。
关于箱线图的一点小摘抄:箱线图不能提供关于数据分布偏态的精确度量,数据集较大时反映的形状信息更加模糊,最好结合均值、标准差、偏度、分布函数等来描述数据集的分布形状。
5.5 雷达图可以对比样本各部分的相似度。
以上图形在工作中的应用:
条形图、饼图、线图很常用;
箱线图、环形图、直方图、散点图、气泡图、雷达图、帕累托图我还没怎么用过。
那我去研究一下使用公司的数据做出上面的图来吧~然后看能不能发现有趣的东西。
跑路!
下期再见!