python 探空数据清洗
数据清洗,清洗“RHU”列为999999的数据
#!/usr/bin/python3 # -*- coding: utf-8 -*- """ @Time : 2025/1/20 22:50 @Author : Suyue @Email : 1493117872@qq.com @File : cloud_area.py @Project : untitled4 """ import pandas as pd import numpy as np # 读取CSV文件到DataFrame df = pd.read_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon.csv') df = pd.DataFrame(df) # 清洗“RHU”列中值为999999的数据,将其设置为NaN df.loc[df['RHU'] == 999999, 'RHU'] = np.float('nan') # # 查看清洗后的数据 # print("\n清洗后的数据:") # print(df) # 将清洗后的数据保存到一个新的CSV文件中 df.to_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon_cleaned_data.csv', index=False)
解释
- 读取数据:使用
pd.read_csv
函数读取CSV文件到一个Pandas DataFrame中。 - 查看数据:使用
df.head()
函数查看数据的前几行,以确认数据的格式和需要清洗的列。 - 清洗数据:
- 使用
df.loc
函数选择“RHU”列中值为999999的行,并将这些值替换为pd.NA
(Pandas中的缺失值表示)。你也可以选择替换为其他特定的值,比如-1。
- 使用
- 再次查看数据:再次使用
df.head()
函数查看数据的前几行,以确认清洗结果。 - 保存数据:如果需要,使用
df.to_csv
函数将清洗后的数据保存回CSV文件。
批量处理数据:
#!usr/bin/env python # -*- coding:utf-8 -*- """ @author: Suyue @file: batch_process_raindrop_data.py @time: 2025/02/19 @desc: 批量数据清洗 """ import pandas as pd import numpy as np import glob import os # 定义csv文件所在的目录 csv_dir = '/lianxi/' # 获取所有csv文件的路径 csv_files = glob.glob(os.path.join(csv_dir, '*.csv')) # 遍历每个csv文件 for csv_file in csv_files: # 读取csv文件到DataFrame df = pd.read_csv(csv_file) # 清洗“RHU”列中值为999999的数据,将其设置为NaN df.loc[df['RHU'] == 999999, 'RHU'] = np.nan # 将清洗后的数据保存回原csv文件 df.to_csv(csv_file, index=False) print(f"已处理并保存文件: {csv_file}")
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程