python 探空数据清洗

数据清洗，清洗“RHU”列为999999的数据

#!/usr/bin/python3
# -*- coding: utf-8 -*-
"""
@Time : 2025/1/20 22:50
@Author : Suyue
@Email : 1493117872@qq.com
@File : cloud_area.py
@Project : untitled4
"""
import pandas as pd
import numpy as np

# 读取CSV文件到DataFrame
df = pd.read_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon.csv')

df = pd.DataFrame(df)

# 清洗“RHU”列中值为999999的数据，将其设置为NaN
df.loc[df['RHU'] == 999999, 'RHU'] = np.float('nan')

# # 查看清洗后的数据
# print("\n清洗后的数据:")
# print(df)

# 将清洗后的数据保存到一个新的CSV文件中
df.to_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon_cleaned_data.csv', index=False)

解释

读取数据：使用pd.read_csv函数读取CSV文件到一个Pandas DataFrame中。
查看数据：使用df.head()函数查看数据的前几行，以确认数据的格式和需要清洗的列。
清洗数据：
- 使用df.loc函数选择“RHU”列中值为999999的行，并将这些值替换为pd.NA（Pandas中的缺失值表示）。你也可以选择替换为其他特定的值，比如-1。
再次查看数据：再次使用df.head()函数查看数据的前几行，以确认清洗结果。
保存数据：如果需要，使用df.to_csv函数将清洗后的数据保存回CSV文件。

批量处理数据：

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: Suyue
@file: batch_process_raindrop_data.py
@time: 2025/02/19
@desc: 批量数据清洗
"""
import pandas as pd
import numpy as np
import glob
import os

# 定义csv文件所在的目录
csv_dir = '/lianxi/'

# 获取所有csv文件的路径
csv_files = glob.glob(os.path.join(csv_dir, '*.csv'))

# 遍历每个csv文件
for csv_file in csv_files:
    # 读取csv文件到DataFrame
    df = pd.read_csv(csv_file)

    # 清洗“RHU”列中值为999999的数据，将其设置为NaN
    df.loc[df['RHU'] == 999999, 'RHU'] = np.nan

    # 将清洗后的数据保存回原csv文件
    df.to_csv(csv_file, index=False)

    print(f"已处理并保存文件: {csv_file}")