pandas学习-函数drop_duplicates的用法
pandas函数drop_duplicates用于去除DataFrame中的重复行。
语法:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
参数说明:
- subset:指定要考虑的列名或列名的列表。默认值为None,表示考虑所有列。
- keep:指定保留哪个重复的行。可选值为'first'(保留第一个出现的重复行)、'last'(保留最后一个出现的重复行)或False(删除所有重复行)。默认值为'first'。
- inplace:指定是否在原始DataFrame上进行修改。如果为True,则在原始DataFrame上删除重复行并返回None。如果为False(默认值),则返回一个新的DataFrame,其中删除了重复行。
示例:
import pandas as pd
data = {'name': ['John', 'Mary', 'John', 'Peter'],
'city': ['London', 'Paris', 'London', 'Berlin']}
df = pd.DataFrame(data)
# 删除所有重复行
df.drop_duplicates(inplace=True)
print(df)
输出:
name city
0 John London
1 Mary Paris
3 Peter Berlin
在上述示例中,使用drop_duplicates函数删除了DataFrame中的重复行,并返回了新的DataFrame。