使用R内置函数操作数据框
我们已经学习了数据框的基础,这里回顾一下用于筛选数据框的内置函数。尽管数
据框本质上是一个由向量构成的列表,由于各列长度相同,所以可以将其看作矩阵进行
访问和操作。选择满足特定条件的行,需要为 [ ] 的第 1 个参数提供一个逻辑向量,
第 2 个参数留空。
在 R 中,这些操作可以通过内置函数实现。本节会介绍一些非常有用的数据操作内置
函数,这些函数可以将数据转换成建模或展示需要的形式。一些函数和技巧在前面的章节
中已经展示过了。
本章的大部分代码都是基于一组产品的虚构数据。为了更好地处理列的类型,我们要
使用 readr 包载入数据。如果尚未安装,请运行 install.packages("readr"):
library(readr)
product_info <- read_ _csv("data/product-info.csv")
product_info
## id name type class released
## 1 T01 SupCar toy vehicle yes
## 2 T02 SupPlane toy vehicle no
## 3 M01 JeepX model vehicle yes
## 4 M02 AircraftX model vehicle yes
## 5 M03 Runner model people yes
## 6 M04 Dancer model people no
一旦数据以数据框的格式载入内存,我们便可以查看每一列的类型:
sapply(product_info, class)
## id name type class released
## "character" "character" "character" "character" "character"
readr::read_csv( ) 这个函数和内置的函数 read.csv( ) 有不同的用法。举个
例子,它不会自动地将字符串列转为因子(这可能会导致一些问题,但好处是引入了较少
的值)。因此,建议使用 readr 包提供的函数导入表格数据。如果使用 read.csv( ) 读
取文件,那么所有的列都会变成具有有限取值的因子类型。