11 2021 档案
摘要:使用forcats处理因子 library(tidyverse) library(forcats) 1.2 创建因子 假设我们想要创建一个记录月份的变量: x1 <- c("Dec", "Apr", "Jan", "Mar") 使用字符串来记录月份有两个问题: (1) 月份只有 12 个取值,如果输
阅读全文
摘要:使用stringr处理字符串 用于字符串处理的 stringr 包。stringr 不是tidyverse 核心 R 包的一部分,我们需要使用命令来加载它。 library(tidyverse) library(stringr) 1.2 字符串基础 可以使用单引号或双引号来创建字符串。单引号和双引号
阅读全文
摘要:使用readr进行数据导入 readr 也是 tidyverse 的核心 R包之一。 library(tidyverse) 1.2 入门 readr 的多数函数用于将平面文件转换为数据框。 read_csv() 读取逗号分隔文件、read_csv2() 读取分号分隔文件(这在用 , 表示小数位的国家
阅读全文
摘要:使用tibble实现简单数据框 1.1 创建tibble as_tibble(iris) 可以通过 tibble() 函数使用一个向量来创建新 tibble。tibble() 会自动重复长度为 1 的输入,并可以使用刚刚创建的新变量,如下所示: tibble( x = 1:5, y = 1, z =
阅读全文
摘要:探索性数据分析(EDA) 探索性数据分析exploratory data analysis 1 对分布进行可视化表示 分类变量在 R 中通常保存为因子或字符向量。要想检查分类变量的分布,可以使用条形图: ggplot(data = diamonds) + geom_bar(mapping = aes
阅读全文
摘要:使用dplyr处理关系数据 使用 dplyr 的一些函数来研究一下 nycflights13 中的关系数据,这些函数可以在两张数据表间进行操作。 library(tidyverse) library(nycflights13) 1.2 nycflights13 nycflights13 中包含了与
阅读全文
摘要:使用dplyr进行数据转换 tidyverse 中的另一个核心 R 包 ——dplyr 包。 1 nycflights13包 介绍 dplyr 中的基本数据操作,我们需要使用 nycflights13::flights。这个数据框包含了 2013 年从纽约市出发的所有 336 776 次航班的信息。
阅读全文
摘要:谱系图的画法 谱系图的各种画法,使用函数as.dendrogram() 第一种 第二种 第三种 第四种
阅读全文
摘要:向量 library(tidyverse) 1.1.1向量介绍 向量,vector,是R中最重要的一个概念,它是构成其他数据结构的基础 用还函数c来创建向量,c代表concatenate连接欸,也可以理解为收集collect,或者合并combine 打印向量x R中的字符串要加引号,单引号,双引号都
阅读全文
摘要:链接: 条件推断树、决策树 : https://www.cnblogs.com/YY-zhang/p/15152971.html 随机森林: https://www.cnblogs.com/YY-zhang/p/15152992.html SVM :https://www.cnblogs.com/Y
阅读全文
摘要:使用ggplot2进行数据可视化 1 mpg数据框 mpg 包含了由美国环境保护协会收集的 38 种车型的观测数据。 mpg 中包括如下变量。 • displ:引擎大小,单位为升。 • hwy:汽车在高速公路上行驶时的燃油效率,单位为英里 / 加仑(mpg)。与燃油效率高 的汽车相比,燃油效率低的汽
阅读全文