表格拼接,融合
cbind(df1,df2) 横向添加表格,表格变宽,增加列数
rbind(df1,df2,...) 纵向合并多个数据集,表格变长,增加行数, 类似cat命令,要求列数相同
例子:
表格融合:针对数据框没有很好的保持一致。可用函数R内置的merge() 和dplyr的_join()函数。注:merge()可指定匹配列名,但运行较慢。
merge(数据框1,数据框2,all= ,[by=,by.x=,by.y= ])
注:merge()函数会自动寻找两个数据框的共有列,即by=共有列,也可以指定不同名的列即by.x指定左边数据框的依据列,by.y指定右边数据框的依据列。
all=FALSE时,只将数据框中共有列数值相同的那些行输出,类似两个数据框对共有列取交集。;all=TRUE时取并集,原本在该行没有得数据框值用NA替代。
例子:
dat_merge1<-merge(df1,df2,by="x",all=TRUE)
dat_merge2<-merge(df1,df3,by.x="x",by.y="g")
dat_merge3<-merge(df1,df4,by=c("x","y"),all=TRUE)
结果:
dplyr包提供left_join(),right_join(), inner_join(), full_join()四个函数。
dplyr::full_join()生成两个集合的并集,
dplyr::inner_join()保留交集key
dplyr::left_join() 只保留左数据框所有key
dplyr::right_join()只保留右边数据框所有key
注:空值填充NA。
by=c("x"="g"),指定两个数据框对应匹配列。
在合并过程有列在两个表中同名,但不作为匹配列,值不同,想保留这两列时候,用suffix参数给重复列名加后缀。
例子:
dat_join1<-dplyr::left_join(x=df1,y=df2,by="x")
dat_join2<-dplyr::right_join(x=df1,y=df2,by="x")
dat_join3<-dplyr::inner_join(x=df1,y=df2,by="x")
dat_join4<-dplyr::full_join(x=df1,y=df2,by="x")
dat_join4<-dplyr::full_join(x=df1,y=df2,by="x")
dat_join7<-dplyr::left_join(x=df1,y=df4,by="x",suffix=c("1","2"))
我用到的场景:
因为样本名重复,所以新入库样本在下检测时需要结合CNGB样本编号和样本名称,以及板号(96孔板整4板下单)
那么需要整合入库单编号和样本信息单:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | library (tidyverse) dplyr:: inner_join () rukudansan<- read.csv ( "~/Downloads/rukudanbianma.csv" ,header = TRUE ,skip = 1) rukudansan[ "客户样本名称" ] View (rukudansan) rukudansan$客户样本名称 rukuxinxibiao<- read.csv ( "~/Downloads/yangbenxinxindan.csv" ,header = TRUE ) View (rukuxinxibiao) rukuxinxibiao$客户样本名称 data_inner<-dplyr:: inner_join (x=rukudansan,y=rukuxinxibiao,by= "客户样本名称" ) View (data_inner) write_excel_csv (data_inner, "~/data_inner_excelcsv.csv" )<br> history () savehistory ( "~/Downloads/Untitled.Rhistory" ) |
本文来自博客园,作者:BioinformaticsMaster,转载请注明原文链接:https://www.cnblogs.com/koujiaodahan/p/15359330.html
posted on 2021-10-01 14:14 BioinformaticsMaster 阅读(192) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律