合并一个文件夹下的excel
import xlrd import xlsxwriter import os import pandas as pd import sys # 文件夹名称 path = "D://01研/毕论/data/economics/2016/原文/" # 获取文件目录 files=os.listdir(path) # 按文件名顺序 files.sort(key=lambda x: int(x.split('.')[0])) print(len(files)) # 第二步:合并数据 # 创建一个带列名的无数据的Dataframe并为其追加数据 col = pd.read_excel(path+files[0]).columns.values df = pd.DataFrame(columns=col) # 遍历excel表格 for i in files: # 要记得赋值回来! df = df.append(pd.read_excel(path+i)) print('第', i , '个,', len(pd.read_excel(path+i))) print(len(df)) df.to_excel("D://01研/毕论/data/economics/原文/"+"2016.xlsx", index=False)
思路:读取文件夹下的excel
创建一个新的dataframe添加数据
保存
20221230更新
csv文件
指定列
import numpy as np import pandas as pd import os import sys # 文件夹名称 # path = "../physiology/" # path = "../physics_multidisciplinary/" path = "../economics/" # 获取文件目录 files=os.listdir(path) # 按文件名顺序 files.sort(key=lambda x: int(x.split('.')[0])) print(len(files)) # 第二步:合并数据 # 创建一个带列名的无数据的Dataframe并为其追加数据 # col = pd.read_excel(path+files[0]).columns.values # 选定指定列 col = ["Authors", "Author Full Names", "Author Keywords", "Keywords Plus", "Addresses", "First5_year_citation", "Times Cited, All Databases"] df = pd.DataFrame(columns=col) # 遍历excel表格 for f in files: # 要记得赋值回来! data = pd.read_csv(path+f, low_memory=False) df = df.append(data[col], ignore_index = True) print(f) print(len(df)) df.to_csv("economics.csv", index=False)