合并一个文件夹下的excel

import xlrd
import xlsxwriter
import os
import pandas as pd
import sys

# 文件夹名称
path = "D://01研/毕论/data/economics/2016/原文/"

# 获取文件目录
files=os.listdir(path)
# 按文件名顺序
files.sort(key=lambda x: int(x.split('.')[0]))
print(len(files))

# 第二步:合并数据
# 创建一个带列名的无数据的Dataframe并为其追加数据
col = pd.read_excel(path+files[0]).columns.values
df = pd.DataFrame(columns=col)

# 遍历excel表格
for i in files:
    # 要记得赋值回来!
    df = df.append(pd.read_excel(path+i))
    print('', i , '个,', len(pd.read_excel(path+i)))

print(len(df))

df.to_excel("D://01研/毕论/data/economics/原文/"+"2016.xlsx", index=False)

思路:读取文件夹下的excel

创建一个新的dataframe添加数据

保存

 

20221230更新

csv文件

指定列

import numpy as np
import pandas as pd

import os
import sys

# 文件夹名称
# path = "../physiology/"
# path = "../physics_multidisciplinary/"
path = "../economics/"
# 获取文件目录
files=os.listdir(path)
# 按文件名顺序
files.sort(key=lambda x: int(x.split('.')[0]))
print(len(files))

# 第二步:合并数据
# 创建一个带列名的无数据的Dataframe并为其追加数据
# col = pd.read_excel(path+files[0]).columns.values
# 选定指定列
col = ["Authors", "Author Full Names", "Author Keywords", "Keywords Plus", "Addresses", "First5_year_citation", "Times Cited, All Databases"]
df = pd.DataFrame(columns=col)

# 遍历excel表格
for f in files:
    # 要记得赋值回来!
    data = pd.read_csv(path+f, low_memory=False)
    df = df.append(data[col], ignore_index = True)
    print(f)

print(len(df))

df.to_csv("economics.csv", index=False)

 

posted on 2022-09-08 16:17  cookie的笔记簿  阅读(116)  评论(0编辑  收藏  举报