Pandas数据框去重复(AB、BA类型)
<生信交流与合作请关注公众~号@生信探索>
从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA)
df.drop_duplicates()
# Symbol1 Symbol2
# Gnai3 Pdcl2
# Pdcl2 Gnai3
# Gm4340 Gm3376
# Gm3376 Gm4340
而且drop_duplicates
不能去除重复,因为他们在不同的列,因此可以想个方法,新建一列。
字符串的比较大小是根据字符串按位比较,两个字符串第一位字符的ascii码谁大,字符串就大,不再比较后面的,比如
"Gnai3">"Pdcl2"
# False
对axis=1
是对每一行循环,总是把大的放在前边。
df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)
# Symbol1 Symbol2 temp
# Gnai3 Pdcl2 Pdcl2-Gnai3
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
# Gm3376 m4340 Gm4340-Gm3376
这个时候再对temp的行去重复,就可以了
df.drop_duplicates(subset="temp")
# Symbol1 Symbol2 temp
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
最后再删除temp列
df.drop_duplicates(subset="temp").drop(columns="temp")
# Symbol1 Symbol2
# Gnai3 Pdcl2
# Gm4340 Gm3376
分类:
Python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具