Python随机抽取Excel数据并在处理后整合为一个文件

合集 - Python知识(75)

1.Python导入Excel表格数据并以字典dict格式保存2023-01-18 2.Python自动批量修改文件名称的方法2023-01-30 3.Python修改柱状图边缘柱子与图边界的距离2023-02-07 4.Python TensorFlow深度神经网络回归：keras.Sequential2023-02-03 5.Python TensorFlow深度学习回归代码：DNNRegressor2023-02-02 6.Python读取大量Excel文件并跨文件批量计算平均值2023-02-01 7.Python绘制神经网络模型图2023-02-20 8.随机森林RF模型超参数的优化：Python实现2023-02-17 9.Python实现随机森林RF并对比自变量的重要性2023-02-16 10.Python实现类别变量的独热编码（One-hot Encoding）2023-02-15 11.Python pydot与graphviz库在Anaconda环境的配置2023-02-14 12.多变量两两相互关系联合分布图的Python绘制2023-02-13 13.基于遗传算法的地图四色原理绘图上色的Python代码2023-02-10 14.Python求取文件夹内的文件数量、子文件夹内的文件数量2023-02-08 15.机器学习数据顺序随机打乱：Python实现2023-05-22 16.Python忽略NoData计算多张遥感影像的像元平均值：whitebox库2023-05-15 17.Python ArcPy批量计算多时相遥感影像的各像元平均值2023-04-18 18.Python GDAL库在Anaconda环境中的配置2023-04-10 19.ArcMap将Python写的代码转为工具箱与自定义工具2023-03-23 20.Python ArcPy批量掩膜、重采样大量遥感影像2023-03-22 21.Python地理分析库whitebox在Anaconda中的配置2023-03-17 22.Python ArcPy批量拼接长时间序列栅格图像2023-03-15 23.HDF格式遥感影像批量转为TIFF格式：ArcPy实现2023-03-13 24.Python gdal读取MODIS遥感影像并结合质量控制QC波段掩膜数据2023-03-10 25.Python批量读取HDF多波段栅格数据并绘制像元直方图2023-03-01 26.Python批量绘制遥感影像数据的直方图2023-02-27 27.Python arcpy创建栅格、批量拼接栅格2023-02-24 28.Python GDAL读取栅格数据并基于质量评估波段QA对指定数据加以筛选掩膜2023-02-23 29.Python自动合并Word文件同时添加分页符的方法2023-02-22 30.Python核对遥感影像批量下载情况的方法2023-02-21 31.小提琴图的绘制方法：Python matplotlib实现2023-10-16 32.Anaconda虚拟环境配置Python库与Spyder编译器2023-10-14 33.创建Anaconda虚拟Python环境的方法2023-09-09 34.ArcPy批量对大量遥感影像相减做差2023-06-25 35.Python批量填补遥感影像的无效值NoData2023-06-01 36.Python中numpy出现has no attribute '_no_nep50_warning'错误的一个解决方案2024-01-07 37.用ArcGIS模型构建器生成、导出Python转换空间坐标系的代码2024-01-18 38.基于Python GDAL为长时间序列遥感图像绘制时相变化曲线图2024-02-28 39.Anaconda与Python环境在Windows中的部署2024-03-01 40.Python实现snap：对齐多张遥感影像的空间范围2024-03-04 41.Python基于Excel生成矢量图层及属性表信息：ArcPy2024-03-20 42.Python表格处理模块xlrd在Anaconda中的安装2024-04-01 43.多次复制Excel符合要求的数据行：Python批量实现2024-04-08 44.Python基于Excel数据加以反距离加权空间插值并掩膜图层2024-04-10 45.ArcPy自动绘制大量地图并设置地图要素：Python2024-04-22 46.Python提取文本文件（.txt）数据的方法2024-05-24 47.将大量文件的拓展名中大写字母改为小写：Python实现2024-05-25 48.浏览器打开JupyterLab后所有快捷键与窗口按键均失效怎么办？2024-05-27 49.Python依据遥感影像的分幅筛选出对应的栅格文件2024-06-01 50.Anaconda安装Python的seaborn库2024-06-02 51.SMOGN算法Python实现：解决回归分析中的数据不平衡2024-06-03 52.Python结合文件名称将多个文件复制到不同路径下2024-06-05 53.Python遥感影像叠加分析：基于一景数据提取另一数据2024-06-17 54.在Ubuntu系统安装Anaconda及Python2024-06-18 55.配置h5py、netCDF4库的方法：Anaconda环境2024-06-26 56.核对不同文件夹所含内容的差异并提取缺失内容：Python代码2024-07-03 57.tensorflow学习率指数衰减ExponentialDecay的参数介绍与使用方法2024-07-17 58.Python按条件筛选、剔除表格数据并绘制剔除前后的直方图2024-07-20 59.Python用shp文件裁剪多个遥感影像的方法2024-07-24 60.Python的GDAL库绘制多波段、长时序遥感影像时间曲线图2024-08-03 61.部署CPU与GPU通用的tensorflow：Anaconda环境2024-08-06 62.Python按条件删除Excel表格数据的方法2024-08-09 63.用whl文件安装Anaconda中的GDAL2024-08-17 64.Python自动复制Excel数据：将各行分别重复指定次数2024-09-01 65.Python批量分割Excel后逐行做差、合并文件的方法2024-09-03 66.Python将表格文件中某些列的数据整体向上移动一行2024-09-09 67.查找大量时序遥感文件缺失、不连贯的成像日期：Python代码2024-10-14 68.将NC栅格表示时间维度的数据提取出来的方法2024-10-22 69.批量计算遥感影像NDVI：Python代码2024-11-09

70.Python随机抽取Excel数据并在处理后整合为一个文件2024-12-11

71.Python读取栅格图像并对像元数据处理后导出到表格文件中2024-12-28 72.基于高德地图API在Python中实现地图功能的方法01-01 73.Python在多个Excel文件中找出缺失数据行数多的文件01-08 74.互联网大中小厂实习面经：滴滴、美团、货拉拉、蔚来、信通院等01-14 75.Python代码将大量遥感数据的值缩放指定倍数的方法01-23

本文介绍基于Python语言，针对一个文件夹下大量的Excel表格文件，基于其中每一个文件，随机从其中选取一部分数据，并将全部文件中随机获取的数据合并为一个新的Excel表格文件的方法。

首先，我们来明确一下本文的具体需求。现有一个文件夹，其中有大量的Excel表格文件（在本文中我们就以.csv格式的文件为例）；如下图所示。

其中，每一个Excel表格文件都有着如下图所示的数据格式；其中的第1行表示每一列的名称，第1列则表示时间。

我们希望实现的，就是从每一个Excel表格文件中，随机选取10行数据（第1行数据肯定不能被选进去，因为其为列名；第1列数据也不希望被选进去，因为这个是表示时间的数据，我们后期不需要），并将这一文件夹中全部的Excel表格文件中每一个随机选出的10行数据合并到一起，作为一个新的Excel表格文件。

明白了需求，我们即可开始代码的撰写；本文用到的具体代码如下所示。

# -*- coding: utf-8 -*-
"""
Created on Fri May 19 01:47:06 2023

@author: fkxxgis
"""

import os
import pandas as pd

original_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/19_2022Data"
result_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/20_Train_Model"

result_df = pd.DataFrame()

for file in os.listdir(original_path):
    if file.endswith(".csv"):
        
        df = pd.read_csv(os.path.join(original_path, file))
        sample_df = df.sample(n = 10, axis = 0)
        sample_df = sample_df.iloc[ : , 1 : ]
        result_df = pd.concat([result_df, sample_df])
        
result_df.to_csv(os.path.join(result_path, "Train_Model_1.csv"), index = False)

代码中首先定义了原始数据文件夹（也就是有大量Excel表格文件的文件夹）路径和结果数据文件夹路径。然后，创建了一个空的DataFrame，用于存储抽样后的数据。

接下来是一个for循环，遍历了原始数据文件夹中的所有.csv文件，如果文件名以.csv结尾，则读取该文件。然后，使用Pandas中的sample()函数随机抽取了该文件中的10行数据，并使用iloc[]函数删除了10行数据中的第1列（为了防止第1列表示时间的列被选中，因此需要删除）。最后，使用Pandas中的concat()函数将抽样后的数据添加到结果DataFrame中。