python 探空数据清洗

数据清洗,清洗“RHU”列为999999的数据

复制代码
#!/usr/bin/python3
# -*- coding: utf-8 -*-
"""
@Time : 2025/1/20 22:50
@Author : Suyue
@Email : 1493117872@qq.com
@File : cloud_area.py
@Project : untitled4
"""
import pandas as pd
import numpy as np

# 读取CSV文件到DataFrame
df = pd.read_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon.csv')

df = pd.DataFrame(df)

# 清洗“RHU”列中值为999999的数据,将其设置为NaN
df.loc[df['RHU'] == 999999, 'RHU'] = np.float('nan')

# # 查看清洗后的数据
# print("\n清洗后的数据:")
# print(df)

# 将清洗后的数据保存到一个新的CSV文件中
df.to_csv('D:/探空数据计算/tankong-2020-50527_with_final_times_lat_lon_cleaned_data.csv', index=False)
复制代码

解释

  1. 读取数据:使用pd.read_csv函数读取CSV文件到一个Pandas DataFrame中。
  2. 查看数据:使用df.head()函数查看数据的前几行,以确认数据的格式和需要清洗的列。
  3. 清洗数据:
    • 使用df.loc函数选择“RHU”列中值为999999的行,并将这些值替换为pd.NA(Pandas中的缺失值表示)。你也可以选择替换为其他特定的值,比如-1。
  4. 再次查看数据:再次使用df.head()函数查看数据的前几行,以确认清洗结果。
  5. 保存数据:如果需要,使用df.to_csv函数将清洗后的数据保存回CSV文件。

 

批量处理数据:

复制代码
#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: Suyue
@file: batch_process_raindrop_data.py
@time: 2025/02/19
@desc: 批量数据清洗
"""
import pandas as pd
import numpy as np
import glob
import os

# 定义csv文件所在的目录
csv_dir = '/lianxi/'

# 获取所有csv文件的路径
csv_files = glob.glob(os.path.join(csv_dir, '*.csv'))

# 遍历每个csv文件
for csv_file in csv_files:
    # 读取csv文件到DataFrame
    df = pd.read_csv(csv_file)

    # 清洗“RHU”列中值为999999的数据,将其设置为NaN
    df.loc[df['RHU'] == 999999, 'RHU'] = np.nan

    # 将清洗后的数据保存回原csv文件
    df.to_csv(csv_file, index=False)

    print(f"已处理并保存文件: {csv_file}")
复制代码

 

posted @   秋刀鱼CCC  Views(14)  Comments(0Edit  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程
点击右上角即可分享
微信分享提示