R语言|数据特征分析
对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。
主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。
2.1 分布分析
分布分析能揭示数据的分布特征和分布类型。对于定性数据,可用饼形图和条形图直观的现实分布情况。
1.定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行。
1)求极差。
2)决定组距与组数。
3)决定分点。
4)列出频率分布表。
5)绘制频率分布直方图。
遵循的主要原则如下。
1)各组之间必须是相互排斥的。
2)各组必须将所有的数据包含在内。
3)各组的组宽最好相等。
对于定性变量,常常根据变量的分类类型来分组,可以采用饼形图和条形图来描述定性变量的分布。
2.2 对比分析
对比分析是指把两个相互联系的指标进行比较,从数据量上展开和说明研究对象规模的大小,水平的高低,速度的快慢。在对比分析中,选择合适的对比标准是十分关键的步骤。
1)绝对数比较
它是利用绝对数进行对比,从而寻找差异的一种方法
2)相对数比较
它是由两个相联系的指标对比计算的,用以反映客观现象之间的数量联系程度的综合指标,其数值为相对数。
相对数可以分为以下几种
1)结构相对数
2)比例相对数
3)比较相对数
4)强度相对数
5)动态相对数
2.3 统计量分析
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
1. 集中趋势度量
集中趋势度量有以下几个方面。
1)均值
2)中位数
3)众数
2. 离中趋势度量
离中趋势度量主要包括如下几个方面。
1)极差
2)标准差
3)变异系数
4)四分位数间距
2.4 周期性分析
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性趋势。
2.5 贡献度分析
贡献度分析又称帕累托分析,它的原理是帕累托法则又称2/8定律。
即累积效应达80%的前几个因素.
2.6 相关性分析
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
参考来源于:R语言数据分析与挖掘实战_张良均,云伟标,王路著_北京:机械工业出版社
https://kknews.cc/tech/89xlq8l.html