12月07日总结-观影数据集之大数据分析-数据清洗
1. 导入数据
2 缺失值处理
总共4803条数据
Homepage差3091条
Overview差3条
Release_data差1条
Runtime差2条
Tagline差844条
2.1补全 release_date
添加日期:
df['release_date'] = df['release_date'].fillna('2014-06-01')
补全 runtime
df.loc[2656] = df.loc[2656].fillna('94, limit=1')
df.loc[4140] = df.loc[4140].fillna('240, limit=1')
3.重复值处理
无重复值