关闭页面特效

去除重复数据是一项常见操作，Pandas中，可以使用drop_duplicates方法。

电影数据集没有重复的行，我们来制造一些重复行。

temp_df = movies_df.append(movies_df)

temp_df.shape

输出

(2000, 11)

append()将返回一个副本，不影响原始数据DataFrame。使用.shape属性查看形状，可以看到数据增加了一倍。

接下来删除重复数据:

temp_df2 = temp_df.drop_duplicates()

temp_df2.shape

输出

(1000, 11)

与append()一样，此处drop_duplicate()方法也将返回副本。

如果想直接在原数据上修改，可以指定参数：inplace=True，Pandas的许多方法都可使用inplace参数。

temp_df.drop_duplicates(inplace=True)

temp_df被直接修改，里面的重复项被去除。

drop_duplicate()的另一个重要参数是keep，它有三个可能的选项:

first: (默认)删除重复项，但保留的是首次出现的项。
last: 删除重复项，但保留的是最后出现的项。
False: 删除重复项，不保留任何重复项。

前面的示例中没有定义keep参数，所以默认值为first。这意味着如果两行是相同的，Pandas将删除第二行保留第一行。使用last效果相反: 第一行被删除保留第二行。False值会删除所有的重复项，如果两行是相同的，这两行都将被删除。

temp_df = movies_df.append(movies_df)  # make a new copy

temp_df.drop_duplicates(inplace=True, keep=False)

temp_df.shape

输出

(0, 11)

因为所有行都是重复的，所以keep=False将删除所有行。

posted on 2020-06-21 21:17 大码王阅读(2140) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

青青陵上柏，磊磊涧中石+

运行时长：2258天0小时58分8秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏