随笔分类 - 数据科学:R
摘要:1 创建日期时间 日期:在 tibble 中显示为 <date>。 时间:一天中的某个时刻,在 tibble 中显示为 <time>。 日期时间:可以唯一标识某个时刻(通常精确到秒)的日期加时间,在 tibble 中显示为<dttm> 想得到当前日期或当前日期时间,你可以使用 today() 或 n
阅读全文
摘要:使用forcats处理因子 library(tidyverse) library(forcats) 1.2 创建因子 假设我们想要创建一个记录月份的变量: x1 <- c("Dec", "Apr", "Jan", "Mar") 使用字符串来记录月份有两个问题: (1) 月份只有 12 个取值,如果输
阅读全文
摘要:使用stringr处理字符串 用于字符串处理的 stringr 包。stringr 不是tidyverse 核心 R 包的一部分,我们需要使用命令来加载它。 library(tidyverse) library(stringr) 1.2 字符串基础 可以使用单引号或双引号来创建字符串。单引号和双引号
阅读全文
摘要:使用readr进行数据导入 readr 也是 tidyverse 的核心 R包之一。 library(tidyverse) 1.2 入门 readr 的多数函数用于将平面文件转换为数据框。 read_csv() 读取逗号分隔文件、read_csv2() 读取分号分隔文件(这在用 , 表示小数位的国家
阅读全文
摘要:使用tibble实现简单数据框 1.1 创建tibble as_tibble(iris) 可以通过 tibble() 函数使用一个向量来创建新 tibble。tibble() 会自动重复长度为 1 的输入,并可以使用刚刚创建的新变量,如下所示: tibble( x = 1:5, y = 1, z =
阅读全文
摘要:探索性数据分析(EDA) 探索性数据分析exploratory data analysis 1 对分布进行可视化表示 分类变量在 R 中通常保存为因子或字符向量。要想检查分类变量的分布,可以使用条形图: ggplot(data = diamonds) + geom_bar(mapping = aes
阅读全文
摘要:使用dplyr处理关系数据 使用 dplyr 的一些函数来研究一下 nycflights13 中的关系数据,这些函数可以在两张数据表间进行操作。 library(tidyverse) library(nycflights13) 1.2 nycflights13 nycflights13 中包含了与
阅读全文
摘要:使用dplyr进行数据转换 tidyverse 中的另一个核心 R 包 ——dplyr 包。 1 nycflights13包 介绍 dplyr 中的基本数据操作,我们需要使用 nycflights13::flights。这个数据框包含了 2013 年从纽约市出发的所有 336 776 次航班的信息。
阅读全文
摘要:向量 library(tidyverse) 1.1.1向量介绍 向量,vector,是R中最重要的一个概念,它是构成其他数据结构的基础 用还函数c来创建向量,c代表concatenate连接欸,也可以理解为收集collect,或者合并combine 打印向量x R中的字符串要加引号,单引号,双引号都
阅读全文