读取写入千万级别的excel文件费时费力,调试起来比较慢,面对这个问题,第一步可以先无脑全部转换成pkl文件,这样几乎和内存操作一样的速度。
例如:
t=pd.read_excel("12月.xlsx",sheet_name=None)
excel全表读入,然后无脑写入硬盘:
import pickle
with open('test.pkl', 'wb') as f: pickle.dump(t,f)
用起来就直接取,操作速度几乎媲美内存操作吧
with open('test.pkl', 'rb') as f: t = pickle.load(f)
和pandas结合的操作是:
df.to_pickle(newfile) #写
d = pd.read_pickle(thefile) #读