R语言之数据可视化 - 了解数据特征

1. R语言 数据基础

  - 观测(pbservation)、变量(variable)、数据矩阵(data matrix)

    

  - 变量的类型

    1. 数值(quantitative):可以进行加减乘除求平均等运算

      - 连续:可在给定区间取任意数值(无限)

      - 离散:在给定数值集合内取值(有限)

    2. 分类(qualitative):取值空间有限;不能进行运算

      - 无序:不可比较

      - 有序:顺序有意义

  - 变量间的关系(对应不同的可视化方法和统计分析方法)

    1. 两个数值变量

    2. 两个分类变量

    3. 一个数值变量、一个分类变量

2. R语言 数值变量的特征和可视化

  2.1 数据集中趋势的测量(measures of center)

    - 均值(mean)、中位数(median)、众数(mode)

      中位数:排序后位于正中间的一个数或位于正中间的两个数的均值

      众数:出现次数最多的数

  2.2 数据分散趋势的测量(measures of spread)

    - 值域(range)、方差(variance)、标准差(standard variance)、四分位距(interquartile range)

      方差 = 

        (每一个数据减去平均数)做平方2,再进行加和∑,最后除以(数据个数-1)

      标准差 = 方差开方  

> x <- c(1,9,2,8,3,9,4,5,7,6)
> mean(x)
[1] 5.4
> median(x)
[1] 5.5
> var(x)
[1] 8.266667
> sd(x)
[1] 2.875181
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00    3.25    5.50    5.40    7.75    9.00 
> 

  2.3 稳健统计量(robust statistics)

    - 是稳健统计量:中位数、四分位差(受极端值影响小)

    - 非稳健统计量:均值、标准差、值域(受极端值影响大)

  2.4 一个变量的可视化:

    - 柱状图(histogram)、点图(dot plot)(分布)

      左偏分布、正态分布(单峰分布)、右偏分布、点图

      

    - 箱图(box plot)(中位数、分位点、极端值)

      Q1: 25%分位点值    Q3: 75%分位点值

      

  2.5 两个变量的关系:

    - 散点图(scatter plot):方向、形状、强度、极端值

      

3. R语言 分类变量的特征和可视化

  3.1 一个分类变量的可视化

    - 频率表(frequency table)、条形图(bar plot)

      

  3.2 两个分类变量的关系

    - 关联表(contingency table)、相对频率表(relative frequencies)

      

    - 分段条形图、相对频率分段条形图

      

    - 马赛克图(mosaic plot)

      

  3.3 一个分类变量、一个数值变量的关系

    - 并排箱图(side-by-side box plot)

       

4. 小结

  

 

posted on 2017-02-20 20:09  你的踏板车要滑向哪里  阅读(562)  评论(0编辑  收藏  举报

导航