随笔分类 -  统计R

ggplot2(grammar of graphic)
摘要:ggplot2 特点 1. 采用图层的设计,利于结构化思维实现数据可视化。明确的起始 ggplot() , 图层之间叠加通过+实现 。通常geom_xx()或stat_xx()绘制一个图层 2. 把表征数据与图形细节分开,便于创造性的绘图。通过stat_xx()实现将常见的统计变换融入绘图中 3. 阅读全文

posted @ 2022-02-09 14:43 BioinformaticsMaster 阅读(144) 评论(0) 推荐(0) 编辑

想取出两列数据不同 对应的那行观测
摘要:想取出两列数据对应不同的那行观测 ,一步实现不来如bamsex_proportion[bamsex_proportion$sex1male_2female !=bamsex_new$sex1male_2female] 只能先把比较结果赋值给新列,再取出来对应的观测, bamsex_proportio 阅读全文

posted @ 2022-02-08 19:22 BioinformaticsMaster 阅读(41) 评论(0) 推荐(0) 编辑

subset 函数 选择数据框/向量的子集
摘要:subset(数据框,条件) 按条件选择子集 Datafra<-data.frame(name=c(1,2,4,NA,4,5,7),family=c("xiao","ming",NA,NA,"zhou","zheng","li")) Datafra subset(Datafra,name>=1) s 阅读全文

posted @ 2022-02-08 19:15 BioinformaticsMaster 阅读(186) 评论(0) 推荐(0) 编辑

R 处理、可视化 多变量数据
摘要:factoextra 包 1 PCA Principal Component Analysis 2 CA Correspondence Analysis 3 MCA Multiple corespondence Analysis 4 MFA Multiple Factor Analysis 5 HM 阅读全文

posted @ 2022-02-07 13:39 BioinformaticsMaster 阅读(206) 评论(0) 推荐(0) 编辑

ggplot tools ggpubr arrange
摘要:library(ggpubr) # ggpubr 是基于ggplot2开发,更便捷,使图满足论文出版的需要。 df<-iris colnames(df)<-paste0("V",1:5) # paste0 连接符是空字符串,相比paste不能设置sep df p1<-ggplot(df,aes(x= 阅读全文

posted @ 2022-02-04 14:50 BioinformaticsMaster 阅读(145) 评论(0) 推荐(0) 编辑

R 矩阵数组
摘要:A<-matrix(11:16,nrow=3,ncol=2) # 实际按向量存储,根据保存的行数,列数对应到矩阵的元素,存储次序默认是按列存储。 B<-matrix(c(1,-1,1,1),nrow=2,ncol=2,byrow=TRUE) #设置byrow=TRUE,则按行存储 取矩阵的行数 nr 阅读全文

posted @ 2022-01-31 10:01 BioinformaticsMaster 阅读(41) 评论(0) 推荐(0) 编辑

R 列表
摘要:R 列表list 保存不同类型的数据,可提供R分析结果的包装,如输出一个包含回归系数、预测值、残差、检测结果等不规则数据结构的变量。 相比数据框,列表不要求各列等长 相比向量,列表不要求所有元素类型相同 赋值 如rec<-list(name="liming",age=30,scores=c(85,7 阅读全文

posted @ 2022-01-27 17:35 BioinformaticsMaster 阅读(100) 评论(0) 推荐(0) 编辑

uniq 搭配sort 去除重复行,查找重复行
摘要:去除重复行 sort $file |uniq 查看重复行 sort $file|uniq -d 统计重复情况 sort $file|uniq -c 查看非重复行 sort $file|uniq -u 阅读全文

posted @ 2022-01-27 09:38 BioinformaticsMaster 阅读(66) 评论(0) 推荐(0) 编辑

作图与修图
摘要:作图与修图是个手艺,需要磨 1天不行,就两天,做个好图,花费很多时间很正常 作新图 数据梳理 核心画图函数掌握 修理 在现有脚本基础上做图 拷贝到Rstudio,逐个代码块运行,调试 需要参考时可以google,键入关键词 如roc ggplot2 阅读全文

posted @ 2022-01-23 20:52 BioinformaticsMaster 阅读(56) 评论(0) 推荐(0) 编辑

stringR包 字符串拼接,对字符串切分 替换 匹配提取 位置提取
摘要:paste("D","CMDCB0000013","-1",sep = "") 拼接字符串,可以用于新增列non_json$DNAcode<-paste("D",non_json$Sample,"-1",sep="") ,当然搭配mutate用也一样 stringR 包对字符串切分 替换 匹配提取 阅读全文

posted @ 2022-01-19 11:00 BioinformaticsMaster 阅读(269) 评论(0) 推荐(1) 编辑

保存重要,未完的工作空间
摘要:save.image("hello.RData") 保存整个工作空间到文件,加载方式: 下次打开默认工作目录时如果有.RData文件时会自动加载 通过load() 读取工作空间 #save 是可以选择些变量保存到文件,如save(numbers_1, file = "hello1.RData") 保 阅读全文

posted @ 2022-01-01 15:27 BioinformaticsMaster 阅读(202) 评论(0) 推荐(0) 编辑

R 随机取样 , 随机取文件的行
摘要:> sample(c(1:10),8) # 对向量取样,默认是不放回抽样,replace=FALSE > sample(c(1:10),8,replace=TRUE) # 放回抽样 对数据框不放回抽行 dataframe[sample(nrow(dataframe), 10), ] #datafra 阅读全文

posted @ 2022-01-01 15:01 BioinformaticsMaster 阅读(430) 评论(0) 推荐(0) 编辑

计数函数n() count()
摘要:n()外的计数函数还包括 n_distinct(x)取x向量中unique值的个数,等同 length(unique(x))。如: tally(x, wt = NULL, sort = FALSE, name = "n") count(x, ..., wt = NULL, sort = FALSE, 阅读全文

posted @ 2021-12-20 17:06 BioinformaticsMaster 阅读(345) 评论(0) 推荐(0) 编辑

group_by 对mutate,summary里的基础函数的适用情况
摘要:group_by的价值在于对 从对整个数据框的数据处理,转换为对每个组内的数据处理。 如:> not_cancelled %>%group_by(year,month,day)%>%filter(rank(desc(arr_delay))<=10) %>% select(month,year,day 阅读全文

posted @ 2021-12-18 22:19 BioinformaticsMaster 阅读(299) 评论(0) 推荐(0) 编辑

rep()复制向量
摘要:> rep(1:4,2) 复制向量两次 > rep(1:4,each=2) 向量内每个元素复制两次 > rep(1:4,each=2,times=3) 向量内每个元素复制两次,向量复制3次。 注: > rep(c("a","b","c"),each=3) #rep 字符串向量情景 [1] "a" " 阅读全文

posted @ 2021-12-18 16:22 BioinformaticsMaster 阅读(49) 评论(0) 推荐(0) 编辑

下检测单前,过滤重复数据
摘要:需求: 1)与以前存在的样本名称相同的,筛选出来,这是重复样本,做减法,不后续实验 2) 重复样本中以前检测不合格的,加上,做后续实验。 准备工作: 1.unique的已存在样本列表 first_four_Sample<-read.csv("./first_four_Sample.csv") #如果 阅读全文

posted @ 2021-12-17 16:14 BioinformaticsMaster 阅读(41) 评论(0) 推荐(0) 编辑

summarize() 计算摘要统计量 搭配group_by()分组计算 ; 等效aggregate()
摘要:summarize() 即summarise(). 输出列包含group_by分组变量以及计算所得统计量 如: > flights %>% group_by(year,month,day) %>% summarize(delay=mean(dep_delay,na.rm=T)) # na.rm=T 阅读全文

posted @ 2021-12-15 21:39 BioinformaticsMaster 阅读(903) 评论(0) 推荐(0) 编辑

常用于mutate()创建变量时的基础运算与函数
摘要:x/sum() 计算x各个分量在总数中的比例 y-mean(y) 计算y各分量与均值之间的差异 %/% 整除 %%求余数 注:当一个向量中的值不够用时,这个向量会被循环使用。如1:3+1:10等价于c(1 + 1, 2 + 2, 3 + 3, 1 + 4, 2 + 5, 3 + 6, 1 + 7, 阅读全文

posted @ 2021-12-14 15:57 BioinformaticsMaster 阅读(146) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示